Nov 20, 2024

抓取全站内容

背景

在大模型训练，知识库获取中经常需要获取全站内容当做材料，可以用一下方案解决

解决

https://github.com/bda-research/node-crawler 可以获取所有的链接

https://github.com/apify/crawlee 可以读取链接然后进行处理从而拿到数据

版权声明

知识共享许可协议

本博客文章均为范明非原创或翻译，采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
原文地址： https://fanmingfei.com/posts/Scrape_The_Entire_Website_Content.html