1 数据采集概述

开始一个数据分析项目,首先需要做的就是get到原始数据,获得原始数据的方法有多种途径。比如:

  1. 获取数据集(dataset)文件

  2. 使用爬虫采集数据

  3. 直接获得excel、csv及其他数据文件

  4. 其他途径…

本次福布斯系列数据分析项目实战,数据采集方面,主要数据来源于使用爬虫进行数据采集,同时也辅助其他数据进行对比。

本文主要是介绍使用爬虫进行数据采集的思路和步骤。

本次采集的福布斯全球上市企业2000强排行榜数据,涉及年份从2007年到2017年,跨越10多年。

本次采集的目标网站,是多个网页,但多个网页的分布结构都有所不同,虽然思路和步骤都差不多,但需要分开来编写,分别采集。

2 数据采集步骤

数据采集大体分为几步:

  1. 目标主网页内容的Download

  2. 主网页上数据的采集

  3. 主网页上其他分发页面网站链接的采集

  4. 各分发网页数据的download与采集

  5. 将采集的数据保存

涉及到的python库包括,requests、BeautifulSoup以及csv。 下面以采集某年的数据为案例,来描述下数据采集的步骤。

import requestsfrom bs4 import BeautifulSoupimport csv

2.1 数据Download模块

主要是基于 requests,代码如下:

def download(url):
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59