一、前言

  最近因为有爬一些招聘网站的招聘信息的需要,而我之前也只是知道有“网络爬虫”这个神奇的名词,具体是什么、用什么实现、什么原理、如何实现比较好都不清楚,因此最近大致研究了一下,当然,研究的并不是很深入,毕竟一个高大上的知识即使站在巨人的肩膀上,也不能两三天就融会贯通。在这里先做一个技术储备吧,具体的疑难知识点、细节等以后一点一点的完善,如果现在不趁热打铁,以后再想起来恐怕就没印象了,那么以我的懒惰的性格估计就要抛弃对它的爱情了。废话不多说,让我们开始在知识的海洋里遨游吧。哎,等等,说到这我突然想到昨天新记的一首诗感觉挺好,给大家分享一下,缓解一下气氛,再给大家讲爬虫吧:

         君生我未生,我生君已老 君恨我生迟,我恨君生早
                   君生我未生,我生君已老 恨不生同时,日日与君好
                   我生君未生,君生我已老 我离君天涯,君隔我海角
                   我生君未生,君生我已老 化蝶去寻花,夜夜栖芳草  

二、什么是网络爬虫

  是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

三、优点

  简单易理解,管理方便。

四、WebMagic总体架构 

网友评论