生活中遇到了问题,想去成都买个房,那哪个区域性价比高肯定要考虑一番了,最粗暴直接的就是看租售比,遂打算去链家网爬上各个小区的卖房单价和租房单价比上一比,python写爬虫无疑是最流行的了,但最近在研究node,感觉写个爬虫强化一下node姿势水平还是挺不错的。开整。
首先http请求工具和dom解析工具是必不可少的,严谨的说是对于像我这样的菜鸟是必不可少的,http请求工具我选了 request,主流的还有 superagent 可选,dom解析 cheerio 应该是不二选择了,接口和 jquery 一样一样的。如果没接触过请先自行了解这两个库。
基本环境先搭建好,这个不在讨论范围,
github:https://github.com/huanqingli/node-web-spider
1. 第一步我们先看抓一个网页是啥样的:
延伸阅读
学习是年轻人改变自己的最好方式