V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
frmongo
V2EX  ›  Python

小白问个爬虫问题

  •  
  •   frmongo · 2018-07-18 18:02:45 +08:00 · 2711 次点击
    这是一个创建于 2331 天前的主题,其中的信息可能已经有所发展或是发生改变。
    想爬点 ZOL 的手机数据,看到 http://detail.zol.com.cn/robots.txt 上面似乎限制爬虫爬取
    Disallow: https://detail.zol.com.cn/*

    我理解,这样爬虫就无法访问产品数据了?这怎么办呢?有什么变通方法可以爬取。
    16 条回复    2018-07-19 10:43:10 +08:00
    Ethanp
        1
    Ethanp  
       2018-07-18 18:05:56 +08:00 via Android
    你都知道看 robots 了不小白了
    alvin666
        2
    alvin666  
       2018-07-18 18:07:57 +08:00 via Android
    悄悄,慢慢地爬,自己用,或者换网站。
    人家不让你爬,无解
    xpresslink
        3
    xpresslink  
       2018-07-18 18:08:27 +08:00
    那个 robots.txt 主要是给搜索引擎来指引的。和你没有什么关系。
    geekcorn
        4
    geekcorn  
       2018-07-18 18:09:33 +08:00 via iPhone
    robots.txt 只是对搜索引擎爬虫的建议性限制吧,理论上正常用户在客户端浏览器能看到什么,操作什么,机器就可以做到什么
    b821025551b
        5
    b821025551b  
       2018-07-18 18:11:01 +08:00   ❤️ 1
    robots.txt 只是君子协议。。。就比如你家门开着,贴张纸,写着小偷别进来,小偷就真不进了么。。。
    0x5f
        6
    0x5f  
       2018-07-18 18:12:02 +08:00
    伪造正常浏览器 ua 啊
    liupanhi
        7
    liupanhi  
       2018-07-18 18:17:23 +08:00
    你确实是小白,哈哈哈
    frmongo
        8
    frmongo  
    OP
       2018-07-18 18:19:08 +08:00
    @liupanhi 给小弟指点下嘛,别只一笑而过
    dcalsky
        9
    dcalsky  
       2018-07-18 18:25:39 +08:00 via Android
    @frmongo 你发 http request 的时候,把 header 里的 user-agent 字段改成其他的。
    dcalsky
        10
    dcalsky  
       2018-07-18 18:29:00 +08:00 via Android
    @frmongo 但是其实也不用做任何多余的事情,因为 robotstxt 只是一个声明,遵不遵守全看写爬虫人的意思。
    arctanx
        11
    arctanx  
       2018-07-18 19:00:46 +08:00
    楼主很有节操 233
    ml1344677
        12
    ml1344677  
       2018-07-18 19:04:21 +08:00
    破坏计算机信息罪了解一下 23333
    musclepanda
        13
    musclepanda  
       2018-07-18 20:52:17 +08:00
    你用 scrapy 的? scrapy 在设置文件里面设置下就好了,有一个 Allow_robots 这样的设定,关了就好
    frmongo
        14
    frmongo  
    OP
       2018-07-19 10:42:01 +08:00
    @arctanx 哈哈
    frmongo
        15
    frmongo  
    OP
       2018-07-19 10:42:15 +08:00
    @ml1344677 我擦...
    frmongo
        16
    frmongo  
    OP
       2018-07-19 10:43:10 +08:00
    @musclepanda 我用的 python2 的 request,写了个很简单的,伪装成 360 的 agent,可以用
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1046 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 20:05 · PVG 04:05 · LAX 12:05 · JFK 15:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.