V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ne6rd
V2EX  ›  Python

想做个爬图片的小工具,列了一些需求,请教架构如何决定。

  •  
  •   ne6rd · 2017-01-15 21:03:36 +08:00 · 3467 次点击
    这是一个创建于 2879 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在公司一直写 webapi ,要么就是业务相关的 CURD 操作。想抽空做个小工具,拓展一下技能面,也可以实用。 市面上一些爬虫软件用过一些,感觉太分散,没有集中管理功能。 语言 JAVA , NODEJS 都写过服务端,前端套 angular 和 bootstrap 的水平。 看到爬虫用 PYTHON 实现的很多,是不是用来写这个最合适,这几天刚看了语法。 自己列了个需求如图。如果用 python 的话,有哪些成熟的第三方库可以直接用的,谢谢。 image

    14 条回复    2017-01-17 10:08:09 +08:00
    xuzywozz
        1
    xuzywozz  
       2017-01-15 21:05:20 +08:00
    requests scrapy :)
    upczww
        2
    upczww  
       2017-01-15 21:12:24 +08:00 via iPhone
    补充下 pyspider 也不错。
    bdbai
        3
    bdbai  
       2017-01-15 21:32:13 +08:00 via Android
    如果还要站点管理什么的,感觉要搞复杂了。上 Django ,再来个消息队列吧。
    gouchaoer
        4
    gouchaoer  
       2017-01-15 21:33:50 +08:00 via Android
    Pixiv 我做了, http://myqsmy.com
    爬虫是非常琐碎的内容处理工作,做成 web 界面管理挺困难的, import.io 那样太麻烦了

    那一堆爬虫框架大多数时候都没用
    gouchaoer
        5
    gouchaoer  
       2017-01-15 21:36:27 +08:00 via Android
    django 折腾过,我表示做简单的 web 后台 php 随便找一个框架都很方便( laravel 除外)
    ne6rd
        6
    ne6rd  
    OP
       2017-01-15 21:37:31 +08:00
    @bdbai Django 不是 web 框架吗,做成 BS 架构的?我其实想做成客户端,打包成 exe 运行的。
    ne6rd
        7
    ne6rd  
    OP
       2017-01-15 21:45:47 +08:00
    @gouchaoer pixiv 我以前用过 PixivUtil2.exe ,感觉功能很强大。就是在存储路径上有一些不满意。
    主要想实现集中管理,包括更新日期之类的。
    站点管理你们第一反应都是 web 后台?我想做客户端的呀 orz
    bdbai
        8
    bdbai  
       2017-01-15 21:58:38 +08:00 via Android
    我觉得有了 web API ,跨平台就好实现了,没有 B/S 和 C/S 之分。想做网页端就来套前端框架,想做客户端就写客户端代码, Java 、 C# 都行,毕竟 GUI 不是 Python 强项。而用 Django 做一套 web 服务很方便。
    araraloren
        9
    araraloren  
       2017-01-16 09:26:54 +08:00
    ~~你这需求列的
    就不像小工具。。。。
    简单来讲 还是先搞个 demo 自己试试吧,然后根据自己的需求设计。。
    比如我这个
    https://github.com/araraloren/Getopt-Kinoko/blob/master/sample/fetch-picture.p6
    也算是一个爬虫了,足够简单实用(图片下载工具只是简单的借用 wget ,最近我才加入了 LWP 模块的支持,没来得及更新),我拿来下百毒贴吧的图片用
    考虑到其他的网站,可能最现实的就是还需要登录,甚至会有验证码,或者是 IP 的访问限制,还是挺麻烦的,前期的时候尽量要考虑全面。。
    dantegg
        10
    dantegg  
       2017-01-16 11:29:34 +08:00
    scrapy
    beidouxun
        11
    beidouxun  
       2017-01-16 12:34:24 +08:00 via Android
    我用的 C#爬虫框架,自己写的 web 管理页面。不是 GUI 和没有日志生成,其他都实现了
    doumeki
        12
    doumeki  
       2017-01-16 16:51:17 +08:00
    初学者有个疑问,我看 python 爬虫都推荐那个 scrapy.
    求问 selenium 这个自动化工具也很方便啊,为什么没人推荐使用?
    argsno
        13
    argsno  
       2017-01-16 22:25:39 +08:00 via iPad
    @doumeki selenium 主要用在需要模拟浏览器,需要 Javascript 的执行环境下
    scrapy 是个并行的爬虫框架,简单而且速度快
    figofuture
        14
    figofuture  
       2017-01-17 10:08:09 +08:00
    可以看看这篇帖子 http://www.jianshu.com/p/53948b9c5f9b
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1099 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 22:42 · PVG 06:42 · LAX 14:42 · JFK 17:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.