如何纯前端实现爬虫

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 1694 天前的主题，其中的信息可能已经有所发展或是发生改变。

不通过后端的服务器，相当于用户每次访问网页，在前端爬取数据后，再上传到后端，每次使用用户的 ip 。当然需要告之用户，类似做一个更新最新数据的按钮，用户自己点击，然后再爬取数据。

用户

数据

前端

爬

26 条回复 • 2020-04-15 23:25:52 +08:00

xiaoxinshiwo

2020-04-15 11:46:59 +08:00

你说的啥？？？

sun019

2020-04-15 11:50:57 +08:00

百度爬虫里面有个自动提交的 js 功能，你可以参考下他怎么做的。
他的流程就是用户访问了该网页，然后就把网址提交了。后续爬虫定时再来爬。

lzdyes

2020-04-15 11:51:09 +08:00

浏览器跨域你的想法就被 kill 了

lshero

2020-04-15 11:51:27 +08:00

油猴写个脚本就搞定了啊

dcalsky

2020-04-15 11:51:41 +08:00

浏览器有跨域的限制，不会让你从这个页面发送 http 请求给其他页面的，除非人家开了针对你的 CORS （或者*），或者你 get 到了他的 jsonp 接口（但是没人会给 html 页面开 jsonp 吧）。所以理论上不行，除非你说的前端不是 web，而是其他客户端。

easylee1996

2020-04-15 11:52:50 +08:00

@xiaoxinshiwo 用前端 js 能不能爬取数据，不使用 python，java 这些

coderluan

2020-04-15 11:53:04 +08:00

最简单的办法是油猴脚本，比较折中的办法是浏览器插件，这些都能保证爬取的过程都是用户行为，单纯的网页肯定还得你提供服务，严格来说就不能算纯前端了。

hcwhan

2020-04-15 12:14:32 +08:00 via Android

@easylee1996 不能具体原因请搜索同源策略跨域

tyx1703

2020-04-15 12:35:30 +08:00 via iPhone

用油🐵或者浏览器扩展吧

also24

2020-04-15 12:37:41 +08:00

需要先定义一下『纯前端』指的是什么。

是说你自己搭建一个前端页面，然后去爬其它网站？

还是说你在其它人的页面上执行一段前端脚本（类似油猴、浏览器扩展），来实现对其它网站的抓取？

binbinyouliiii

2020-04-15 12:37:46 +08:00 via Android

浏览器:”不，你不想”

ic2y

2020-04-15 12:40:35 +08:00

使用浏览器扩展，是可以的。

一些比价插件，就会通过插件扩展机制，去扫描当前页面的 document，根据不同的网站 url，执行不同的采集策略。

采集到的数据，会通过 http 传送到后端，既能让用户帮助自己辅助数据抓取，也能满足用户更精准的比价需求 [爬当前页的商品基本文案，可以比价推荐类似的产品] 。