抓取全站内容
背景
在大模型训练,知识库获取中经常需要获取全站内容当做材料,可以用一下方案解决
解决
https://github.com/bda-research/node-crawler 可以获取所有的链接
https://github.com/apify/crawlee 可以读取链接然后进行处理从而拿到数据
版权声明
本博客文章均为 范明非 原创或翻译,采用知识共享 署名-非商业性使用-相同方式共享 4.0 国际 许可协议进行许可。
原文地址: https://fanmingfei.com/posts/Scrape_The_Entire_Website_Content.html