[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [五] 如何做全站采集?

发布时间：2017年05月16日作者：IT网络文摘

如何做全站采集?

很多同学加群都在问, 如何使用DotnetSpider做全站采集呢? 其实很简单, 只要你们想通爬虫的整个逻辑就能明白了。简而言之，步骤如下：

1. 使用指定URL下载HTML

2. 分析, 保存HTML数据

3. 从HTML中分析出符合规则的新的URL, 并用新URL重复 1,2,3步骤, 直到再也无法发现新的URL

逻辑是简单的, 但其中涉及到的细节不少，如多线程、URL去重、遍历深度等, 但是不用担心, 这些也正是框架应该去做的事情, 大家只需要关注业务逻辑就好。