爬虫怎么能把整个网站给爬下来

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 120 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题：

有什么办法可以把整个网站都爬下来，包括二级页面和各种 tab, 里面包括递归和 JS 渲染，想想都头大，各位彦祖集思广益，想想办法。

30 条回复 • 2024-08-04 09:53:10 +08:00

weixind

120 天前

爬虫爬的好，牢饭吃得饱。

crocoBaby

120 天前

直接爬路由

hanierming

120 天前

抓取页面中的所有连接，爬到一个页面就继续访问里面的链接，无限递归。
高级一点的就是分析 URL 结构，自己拼接 URL 抓。

FengMubai

120 天前

试试 idm

erquren

120 天前

是不是为了合规

gaoyangang

120 天前

@weixind 国外网站，不慌

D0n9

120 天前

https://www.httrack.com/

iyiluo

120 天前

做个链接去重不就行了，链接去重后塞进队列里面慢慢爬，不过你爬虫爬的时候小心有人敲门

gaoyangang

120 天前

@hanierming 有些 tab 要点击，才能加载出来

wysnxzm

120 天前

爬虫小寄巧

hanierming

120 天前

@gaoyangang 那应该是会调接口的吧？你直接请求接口？

whoosy

120 天前

https://github.com/projectdiscovery/katana

这种开源库应该能满足你需求吧

linhongjun

120 天前

以前我记得还有那种网站下载的软件就是下载整站。。。。后来就没用过了

xiangyuecn

120 天前

无头浏览器直接正常访问渲染，想要什么数据就读什么数据，管他乱七八糟的

150530

120 天前

http://wget.oiweb.cn/ 这种可以全站爬取

justwe7

120 天前

楼上老哥正解，单纯为了抓页面结构展示界面的话直接 https://pptr.dev/ 加延时等待渲染后拿代码

luolw1998

120 天前

@gaoyangang #6 国外网站直接读他们的 sitemap.xml, https://www.semrush.com/sitemap.xml

Mechanical

120 天前

Teleport Ultra

tool2dx

120 天前

@linhongjun 以前相关页面数据都是写在 index.html 里的。现在 index 里啥都没有，数据都是 ajax 动态读取的。

yulgang

120 天前

Offline Explorer

ma836323493

120 天前

@gaoyangang #9 #9 那在加个 playwright 模拟点击

vituralfuture

120 天前 via Android

用 scrapy 轻轻松松，之前有个课设就是做这个，我用 rust 手搓 http 协议，通过 flutter-rust-bridge 接到 dart ，dart 再用正则，xpath 等解析，把 vuejs.org 爬下来了

当然动态资源不容易爬取

vituralfuture

120 天前 via Android

@vituralfuture 简单来说就是一个广度优先遍历，把出现在 HTML 中的链接统统加入队列，之后去爬，还要处理一下 css 中的链接

anjv

120 天前

在 Linux 下，通过一个命令就可以把整个站相关的文件全部下载下来。
wget -r -p -k -np
参数说明：
-r：递归下载
-p：下载所有用于显示 HTML 页面的图片之类的元素
-k：在转换文件 X 前先将它备份为 X.orig 。
-np：不追溯至父目录

wget -r -np -nd http://example.com/
这条命令可以下载 http://example.com 网站根目录中的所有文件。其中，-np 的作用是不遍历父目录，-nd 表示不在本机重新创建目录结构。
wget -m -k (-H) http://www.example.com/
该命令可用来镜像一个网站，wget 将对链接进行转换。如果网站中的图像是放在另外的站点，那么可以使用 -H 选项。