V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Codewj
V2EX  ›  Python

Python 分布式的一点小疑问

  •  
  •   Codewj · 2018-01-24 10:59:47 +08:00 · 3108 次点击
    这是一个创建于 2505 天前的主题,其中的信息可能已经有所发展或是发生改变。

    经常有人建议在 settings.py 中不使用 ITEMS_PIPLINES 里的 RedisPipline,这样提提高性能,可是如果这样做的话,分布式的意义在哪里,下次获取数据没有一个共有的数据库获取了

    12 条回复    2018-01-29 09:19:41 +08:00
    Codewj
        1
    Codewj  
    OP
       2018-01-24 13:34:15 +08:00
    有大佬可以帮忙解释一下吗
    wizardoz
        2
    wizardoz  
       2018-01-24 13:38:44 +08:00   ❤️ 1
    一脸蒙蔽的进来,一脸蒙蔽的走了
    yangzhezjgs
        3
    yangzhezjgs  
       2018-01-24 13:45:40 +08:00
    问题都没说清楚。。。
    Codewj
        4
    Codewj  
    OP
       2018-01-24 13:51:01 +08:00 via iPhone
    @wizardoz 关于通过 redis_scrapy 实现分布式爬虫里有个配置,redispipline,如果不配置将不会生成 item 到 redis 中,一般都不配置,为了提高爬取存储性能,所以问题是不配置导致不存储,那分布式的意义是什么
    Codewj
        5
    Codewj  
    OP
       2018-01-24 13:51:17 +08:00 via iPhone
    @yangzhezjgs 关于通过 redis_scrapy 实现分布式爬虫里有个配置,redispipline,如果不配置将不会生成 item 到 redis 中,一般都不配置,为了提高爬取存储性能,所以问题是不配置导致不存储,那分布式的意义是什么
    Codewj
        6
    Codewj  
    OP
       2018-01-24 13:52:01 +08:00 via iPhone
    或者说不配置的话,分布式体现在哪里
    ilovebaicai
        7
    ilovebaicai  
       2018-01-24 15:38:32 +08:00
    这个是存储数据的配置,需要。不过你可以将生成的 item 存储到任何地方:mysql,hbase,文件一类,当然也包括存到 redis。分布式并不是体现配置 ITEMS_PIPLINES,分布式是体现爬虫共享 redis 队列。
    Codewj
        8
    Codewj  
    OP
       2018-01-24 22:44:25 +08:00
    @ilovebaicai 理解了,谢谢哥
    beforeuwait
        9
    beforeuwait  
       2018-01-25 11:34:45 +08:00
    分布式应该体现在队列或者消息框架上,数据并不一定要放在一起啊
    Codewj
        10
    Codewj  
    OP
       2018-01-25 12:14:53 +08:00 via iPhone
    @beforeuwait 谢谢🙏
    zyy1245367562
        11
    zyy1245367562  
       2018-01-28 10:57:24 +08:00
    所谓分布式其实就是人多好干活儿,通过队列利用多台机器来提高抓取速度,获取的数据如何存放,不是其根本要解决的痛点。
    Codewj
        12
    Codewj  
    OP
       2018-01-29 09:19:41 +08:00 via iPhone
    @zyy1245367562 戳到痛处了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3601 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 842ms · UTC 04:42 · PVG 12:42 · LAX 20:42 · JFK 23:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.