前言

前端时间再回顾了一下node.js,于是顺势做了一个爬虫来加深自己对node的理解。 
主要用的到是request,cheerio,async三个模块 
request 
用于请求地址和快速下载图片流。 
https://github.com/request/request 
cheerio 
为服务器特别定制的,快速、灵活、实施的jQuery核心实现. 
便于解析html代码。 
https://www.npmjs.com/package/cheerio 
async 
异步调用,防止堵塞。 
http://caolan.github.io/async/

核心思路

  • 用request 发送一个请求。获取html代码,取得其中的img标签和a标签。

  • 通过获取的a表情进行递归调用。不断获取img地址和a地址,继续递归

  • 获取img地址通过request(photo).pipe(fs.createWriteStream(dir + “/” + filename));进行快速下载。

网友评论