0. 如何入门数据分析
关注沙漠之鹰的同学一定看过沙漠君写得很多篇数据分析文章,比如分析房价,车价,预测机动车摇号这些话题。其实文章中所有的分析都使用了Python和它非常强大的数据分析库Pandas。一些机器学习和预测的功能则用到了sklearn库。掌握了这些工具,就能应对绝大多数的分析需求。
纸上得来终觉浅,即使你看了很多书和代码,也未必比得上多接触例子多敲一些代码,三四个中等规模(约一两百行代码的)的案例就能让你有整体的把握。至于数据采集,沙漠之鹰有开源的数据抓取工具Hawk,网上也有众多如何获取数据的教程,因此本文不再详述。
系列文章分为三个部分:
1) 查询与统计
2) 可视化和高级用法
3) 分类和预测(估计会分为几篇文章)
好了,废话不多说,进入正题。
1. 找到好的问题
好的问题其实比答案更重要。人认识问题,分为四种级别:
我们知道自己知道的(房价在涨)
知道自己不知道的(可度量的信息,如房价平均涨幅)
不知道自己知道的(如证明摇号系统漏洞)
不知道自己不知道的(最有价值,蕴含着最大的机会)
沙漠君期待于寻找3-4层级的问题,可是多数情况只能在第1和第2档上徘徊。当你发现一个问题之后,还需要思考3个问题:
我是否找到了一个值得解决的问题?
我是否提出了一个足够好的解决方案
我真的想去解决这个问题吗?
最后的动机往往反映了你能解决该问题的最大极限,很多人也许仅仅是完成任务,因此有了一点成果便停滞不前,错过了最大的金矿。数据的质量比数量更重要,如果不知道什么样的数据更重要,即使拥有更多的数据也只会造成呕吐。数据分析需要专注,需要从纷繁的图表和信息中找到问题核心。
通常来说,人们对变化的指标更感兴趣,因此比率和增长幅度比静态的数据更有说服力。而变化又分长短期,不同维度得出的结论往往全然不同。相关性很好,因果性更佳。有了因果性,便有了改变未来的能力。
下图展示了数据分析的一般流程(图片来自网络):
统计的三大核心:分组(map),聚合(reduce),排序(sort)。它们用的是如此普遍,因此MapReduce管道框架成了数据分析的标准,也非常适合做多机并行化。分组和排序很好理解,聚合指的是对各组内容做求和,分组等。
绝大部分数据分析操作,都可以通过查询,分组,聚合,排序四个元素进行级联组合进行。因此掌握这四大天王,应付一般的场景就都无问题了。 (这应该是这篇文章最重要的一句话了)
2. 查询和过滤
DataFrame是pandas的核心数据结构,可以理解为Excel里的二维矩阵,它更高级,能表达3维或更高维的数据,支持多索引。在内存中存取,效率极高,绝