【Storm】Storm实战之频繁二项集挖掘（附源码）

发布时间：2017年07月25日作者：IT网络文摘

一、前言

　　针对大叔据实时处理的入门，除了使用WordCount示例之外，还需要相对更深入点的示例来理解Storm，因此，本篇博文利用Storm实现了频繁项集挖掘的案例，以方便更好的入门Storm。

二、基础知识

　　2.1 频繁二项集挖掘

　　如顾客去超市购物时，牙膏和牙刷基本上都是摆放在一起，因为购买牙膏时，很有可能会购买牙刷。另外，“啤酒与尿布”的案例则是对订单进行分析挖掘后发现的规律，将啤酒和尿布一起摆放会促进啤酒的销量。

　　2.2 算法设计

　　本示例中不考虑太复杂的挖掘算法，只考虑将两个商品组合后的挖掘，设计如下

　　　　· 将每笔订单的商品按照两两分组。

　　　　· 将每个分组的频度进行统计（不考虑商品的次序）。

　　　　· 根据频度计算支持度（每个组合出现的频率越高，更有可能是频繁组合）和置信度（商品组合出现的置信程度）。

　　　　· 设置支持度和置信度阈值，过滤不达标的数据。

　　2.3 Storm设计思路

　　　　· 使用Redis作为存储订单数据的数据库。

　　　　· 使用Spout从Redis中读取订单数据。

　　　　· 使用Bolt计算分组频度。

　　　　· 使用Bolt计算支持度和置信度。

　　　　· 使用Bolt筛选结果并存储到Redis中。

　　2.4 拓扑结构图

　　根据程序思路设计如下所示的拓扑结构，其组件在之后进行介绍。

　　大数据培训,云培训,数据挖掘培训,云计算培训,高端软件开发培训,项目经理培训

三、设计实现

分类导航