V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
zictos
V2EX  ›  Python

百度搜索是不是在一定程序上默许爬虫?

  •  
  •   zictos · 2021-05-09 20:33:18 +08:00 · 4728 次点击
    这是一个创建于 1305 天前的主题,其中的信息可能已经有所发展或是发生改变。

    访问频率 2 秒左右一次的话访问上万次只遇到一次验证码。
    而谷歌随便访问几十次就有验证码,验证码还特别复杂。

    我不换 ip 、不登录(完全公开数据)、不破解验证码、不改 ua(使用 selenium+chrome),就一台电脑一直访问不知道会不会有事,还是有点担心。

    感觉百度可能在一定程序上默许,毕竟很多做 seo 的需要查排名,如果做太多限制或者验证码很复杂的话,那很多依靠百度获取排名等数据的一些大型网站可能都没法使用了。

    17 条回复    2021-05-10 12:42:58 +08:00
    anexplore
        1
    anexplore  
       2021-05-09 20:54:35 +08:00
    搞那么复杂的反爬干啥呢,总有办法克服掉。。。所以更多的精力放到别的地方更有价值
    Jooooooooo
        2
    Jooooooooo  
       2021-05-09 20:56:02 +08:00
    如今的大型"网站"百度根本搜不到.
    zictos
        3
    zictos  
    OP
       2021-05-09 21:01:35 +08:00
    @anexplore #1 百度应该算是比较大方的,其他稍微大一点的网站基本都有比较复杂的反爬。淘宝最严重,不过淘宝本身都有开放 api,不知道还限制那么严重干嘛
    @Jooooooooo #2 某些不让百度抓取的大型网站我也不需要,但是大部分我需要的,百度都有
    renmu123
        4
    renmu123  
       2021-05-09 23:54:20 +08:00 via Android
    可能因为你的 ip 是共享的,所以经常被广告风控
    renmu123
        5
    renmu123  
       2021-05-09 23:54:53 +08:00 via Android
    广告风控=>谷歌风控
    zictos
        6
    zictos  
    OP
       2021-05-09 23:58:39 +08:00
    @renmu123 #4 手动一般不会出现谷歌验证码的。访问谷歌只能是云服务器的 ip,不是共享的,就我一个人用
    ooops
        7
    ooops  
       2021-05-10 01:36:24 +08:00 via iPhone
    一定程度上
    philipjf
        8
    philipjf  
       2021-05-10 07:46:21 +08:00
    写论文的时候通过 Google Scholar 查文献,因为本身不支持批量导出引用文件,只能手动一个一个下载,下载到二十几个的时候直接 IP 被 ban 了
    zzzmh
        9
    zzzmh  
       2021-05-10 10:04:51 +08:00
    反爬虫首先要增加前后端的算力消耗,其次既要反爬虫又要兼容老浏览器(ie6 ie7 ie8 等)也非常难实现,放弃浏览器兼容也不行,政企还有不少 xp 系统 ie8,最后就是搜索引擎类型的爬也爬不走他的库,爬到的数据价值也没那么大
    leeyuzhe
        10
    leeyuzhe  
       2021-05-10 10:54:19 +08:00
    我谷歌学术现在直接用不了,手动访问也不不行
    AoEiuV020
        11
    AoEiuV020  
       2021-05-10 11:54:37 +08:00   ❤️ 1
    不存在的,是否反爬虫看的是 robot.txt,
    百度是明确拒绝各种蜘蛛以及其他一切爬虫,
    没有验证码只能说明当前服务器压力不是太大,
    zictos
        12
    zictos  
    OP
       2021-05-10 12:02:02 +08:00
    @AoEiuV020 #11 robots.txt 主要针对搜索引擎的,搜索引擎获取数据后会展示,我获取数据后并不会展示给别人,只是用于自己分析。
    我的意思是百度不禁止的话那访问就风险不大,毕竟现在爬虫风险是比较大的。如果他不想让我访问就直接弹验证码或者禁掉我的 ip 就行,我也不更换 ip,就同一个 ip 。
    AoEiuV020
        13
    AoEiuV020  
       2021-05-10 12:13:01 +08:00
    @zictos robots.txt 是针对所有机器人的,一般理解成搜索引擎只是因为正常网站都是拒绝搜索引擎以外的所有机器人,同时搜索引擎以外的爬虫基本都无视 robots.txt,
    | The robots exclusion standard, also known as the robots exclusion protocol or simply robots.txt, is a standard used by websites to communicate with web crawlers and other web robots.

    总之你违反 robots.txt 就做好被告的心理准备,
    做好反反爬虫包括伪装 ua 的话百度还要分析一下你是不是机器人,是不是违反了 robots.txt ,
    连 ua 都不伪装等于直接告诉百度我就是违规了,你爱咋咋地,百度想做点什么就一抓一个准,
    AoEiuV020
        14
    AoEiuV020  
       2021-05-10 12:15:59 +08:00
    @zictos 你这个“如果他不想让我访问就直接弹验证码”就有点自欺欺人了,你擅自提了个要求然而百度根本没有听到你的要求,又怎么会拒绝你,
    就像那个,没来上课的同学举个手,好没人举手人都到期了,
    zictos
        15
    zictos  
    OP
       2021-05-10 12:26:34 +08:00
    @AoEiuV020 #13 我用得着伪造 ua 吗?直接使用 chrome 驱动,和正常用户的 chrome 的 ua 是一模一样的。
    浏览器安装在我的电脑上,我只是用程序控制我自己电脑上的浏览器,难道我连操作自己电脑的权利都没有了?

    一般现在大网站都有反爬措施的。百度也有,访问速度快了就弹验证码。另外像这种排名查询排名 http://tool.chinaz.com/keywords 都是自动访问百度的,如果百度动真格,这些网站都没法查了。很多大公司还有火车抢票,这可比我这种情况严重多了,我才两秒访问一次
    AoEiuV020
        16
    AoEiuV020  
       2021-05-10 12:32:25 +08:00
    @zictos 我的观点是,你违规了,百度保留起诉你的权利,仅此而已,考虑实际影响力百度当然不可能真对你做什么的,
    另外用程序控制浏览器而不是鼠标键盘这情况就是 robot 了,
    验证码啥的都是需要取舍的,严格了可能影响正常用户,不能说明容忍爬虫,
    zictos
        17
    zictos  
    OP
       2021-05-10 12:42:58 +08:00
    @AoEiuV020 #16 两秒一次,一天就四万多次,正常用户可能访问四万多次吗?如果百度意识到了,直接禁止就行了。又不会造成什么损失。我不换 ip 就是让他能够在不允许的情况下有办法禁止的,而不是他明明不允许我访问,我还疯狂换 ip 让他禁止不了。如果他明知道我访问那么多还不禁止甚至连验证码都不弹,就代表 2 秒每次的访问频率是他默许的。
    谁规定 http 请求必须手工操作的?那编程语言是干嘛的。robot 协议是国外出的。但 hiQ Labs Inc v. LinkedIn Corporation,最后居然 hiQ Labs Inc 胜利了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1046 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 20:05 · PVG 04:05 · LAX 12:05 · JFK 15:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.