分类导航

从零实现一个高性能网络爬虫（一）网络请求分析及代码实现

发布时间：2017年05月06日作者： IT网络文摘 (该文来自笔记，点击查看原文)

摘要

从零实现一个高性能网络爬虫系列教程第一篇，后续会有关于url去重、如何反爬虫、如何提高抓取效率、分布式爬虫系列文章。
以我写的一个知乎爬虫为Demo讲解,github地址 (https://github.com/wycm/zhihu-crawler) ,有兴趣的朋友可以star下。
网络请求的分析是写网络爬虫非常关键且重要的一个步骤。这篇文章以知乎网站为例，从网络请求分析到代码(java)实现。

目的

获取某个知乎用户的所有关注用户的个人资料

请求分析

就目前的大部分网页来说，网页上能看到的数据大多都是直接在网站后台生成好数据(有的网页是在网站前端通过js代码处理后显示,如数据混淆、加密等)直接在前台显示。
虽然很多网站采用了ajax异步加载，但是归根结底它还是一个http请求。只要能够分析出对应数据的请求来源，那么就很容易的拿到你想要的数据了。以下步骤讲解如何分析http请求。

以我的知乎账户为例，获取我的所有关注用户资料。首先打开我的关注列表，可以看到主面板就是我的关注用户列表，
我一共关注233个用户，现在目的是就是要获取这233个用户的个人资料信息。打开F12->NetWork,勾选上Preserve log和Disable cache（如下图）。
下拉滚动条，点击下一页获取对应请求(在翻页的过程会有很多无关的请求),待页面加载完成后，在请求列表中右键->Save as HAR with content，这个文件是把当前请求(request)列
延伸阅读
- ssh框架 2016-09-30
- 阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁 2017-07-26
- 消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 论文笔记【图片目标分割】 2017-07-26
- 词向量-LRWE模型-更好地识别反义词同义词 2017-07-26
- 从栈不平衡问题理解 calling convention 2017-07-26
- php imagemagick 处理图片剪切、压缩、合并、插入文本、背景色透明 2017-07-26
- Swift实现JSON转Model - HandyJSON使用讲解 2017-07-26
- 阿里移动安全 Android端恶意锁屏勒索应用分析 2017-07-26
- 集合结合数据结构来看看(二) 2017-07-26
学习是年轻人改变自己的最好方式

分类导航

从零实现一个高性能网络爬虫（一）网络请求分析及代码实现

摘要

目的

请求分析

延伸阅读

我想了解如何学习