抓取全站内容

背景

在大模型训练,知识库获取中经常需要获取全站内容当做材料,可以用一下方案解决

解决

https://github.com/bda-research/node-crawler 可以获取所有的链接

https://github.com/apify/crawlee 可以读取链接然后进行处理从而拿到数据