webmagic源码学习(一)

发布时间：2017年05月06日作者：IT网络文摘

　最近工作主要是一些爬虫相关的东西，由于公司需要构建自己的爬虫框架，在调研过程中参考了许多优秀的开源作品，包括webmagic，webcollector,Spiderman等，通过学习这些优秀的源码获益良多。

webmagic是一个简单灵活的爬虫框架。基于WebMagic，你可以快速开发出一个高效、易维护的爬虫。(官网地址：http://webmagic.io/)

本篇是webmagic源码阅读第一篇，主要探讨webmagic的核心机制，即一个BFS的爬虫是如何构建出来的。

webmagic分为以下四大组件，Downloader(页面下载器),Scheduler(下载调度器),PageProcessor(页面解析器),Pipeline(管道组件，通常做将抓取结果入库写文件等操作)

（图片来自官网）

以上四个组件由Spider组件组装起来，爬取数据时协同工作。我们先研究webmagic的核心类Spider。

在Spider中的run()方法中可以清晰的看到典型的BFS代码，通过一个循环不断地从scheduler中的内存队列中取一个抓取任务(Request)并进行相应处理(processRequest)，如果抓取成功则回调监听器中的onSuccess()方法，失败则调用onError()方法,最后将已抓取页面的数量自增。如果队列中没有任何抓取任务了，爬虫会在这里停一会防止有新的任务

分类导航

webmagic源码学习(一)

网友评论

更多精彩分享