前言:在系统中向hbase中插入数据时,常常通过设置region的预分区来防止大数据量插入的热点问题,提高数据插入的效率,同时可以减少当数据猛增时由于Region split带来的资源消耗。大量的预分区数量会导致hbase客户端缓存大量的分区地址,导致内存的增长,某些系统中一个JVM进程中会开启几十个独立的hbase客户端对象,同时会查询多张Hbase表,这样JVM进程就会缓存 (预分区数 X 表数 X Hbase客户端数=条记录)。
有没有这种情况?有的,在本人的storm项目中,采用结合spring注入的方式来结合Hbase向hbase存入数据,storm中的每一个线程都会创建一个XmlBeanDefinitionReader对象来加载spring的配置文件,所以一个线程就有一个hbse客户端对象了,同时Hbase表设置102预分区,一个topology会操作最少8张表,一个worker会走20个task。所以一个work会缓存大约102*8*20=16320条记录,每一条记录的数据格式大致就是hbase.meta的一条数据格式,经过我计算16000多条记录一个JVM中占用内存也就5M多,对内存的消耗是完全可以忽略不计的。这就很尴尬了。这种优化只是对于大规模的集群来说有效果,小规模集群考虑这种情况是过度设计了。比如那种Hbase客户端会有缓存一整张hbase.meta表数据的系统又或者那种hbase表分区达到上万的系统,那么一个woeker中地址的缓存会达到几百兆,这个时候从原理上就可以进行设计了来节省资源消耗,想想可以省好多台服务器。
原文和作者一起讨论:http://www.cnblogs.com/intsmaze/p/6648834.html
微信:intsmaze
说了这么多,如何来进行系统资源优化?可以结合storm的自定义分区,不再使用storm提供的分组策略,我们把作用于hbase的散列算法来作为storm的分组策略,就可以得到storm的task与hbase的预分区一一对应了。
以前的系统:
延伸阅读
学习是年轻人改变自己的最好方式