分类导航

storm自定义分组与Hbase预分区结合节省内存消耗

发布时间：2017年06月06日作者： IT网络文摘 (该文来自笔记，点击查看原文)

　前言：在系统中向hbase中插入数据时，常常通过设置region的预分区来防止大数据量插入的热点问题，提高数据插入的效率，同时可以减少当数据猛增时由于Region split带来的资源消耗。大量的预分区数量会导致hbase客户端缓存大量的分区地址，导致内存的增长，某些系统中一个JVM进程中会开启几十个独立的hbase客户端对象，同时会查询多张Hbase表，这样JVM进程就会缓存 (预分区数 X 表数 X Hbase客户端数=条记录)。

　　有没有这种情况?有的，在本人的storm项目中，采用结合spring注入的方式来结合Hbase向hbase存入数据，storm中的每一个线程都会创建一个XmlBeanDefinitionReader对象来加载spring的配置文件，所以一个线程就有一个hbse客户端对象了，同时Hbase表设置102预分区，一个topology会操作最少8张表，一个worker会走20个task。所以一个work会缓存大约102*8*20=16320条记录，每一条记录的数据格式大致就是hbase.meta的一条数据格式，经过我计算16000多条记录一个JVM中占用内存也就5M多，对内存的消耗是完全可以忽略不计的。这就很尴尬了。这种优化只是对于大规模的集群来说有效果，小规模集群考虑这种情况是过度设计了。比如那种Hbase客户端会有缓存一整张hbase.meta表数据的系统又或者那种hbase表分区达到上万的系统，那么一个woeker中地址的缓存会达到几百兆，这个时候从原理上就可以进行设计了来节省资源消耗，想想可以省好多台服务器。

原文和作者一起讨论:http://www.cnblogs.com/intsmaze/p/6648834.html

微信：intsmaze

大数据培训,云培训,数据挖掘培训,云计算培训,高端软件开发培训,项目经理培训

　　说了这么多，如何来进行系统资源优化？可以结合storm的自定义分区，不再使用storm提供的分组策略，我们把作用于hbase的散列算法来作为storm的分组策略，就可以得到storm的task与hbase的预分区一一对应了。

以前的系统：

　　大数据培训,云培训,数据挖掘培训,云计算培训,高端软件开发培训,项目经理培训

分类导航

storm自定义分组与Hbase预分区结合节省内存消耗

延伸阅读

我想了解如何学习