1. 介绍

thulac4j是THULAC的Java 8工程化实现,相比于官方版THULAC-Java,我们做了如下工作:

  1. 规范化分词词典,并去掉一些无用词;

  2. 重写DAT(双数组Trie树)的构造算法,生成的DAT size减少了8%左右,从而节省了内存;

  3. 优化分词算法,提高了分词速率。

若想在项目中使用thulac4j,可添加依赖:

<dependency>
  <groupId>io.github.yizhiru</groupId>
  <artifactId>thulac4j</artifactId>
  <version>1.0.1</version></dependency>

thulac4j支持两种分词模式:

  1. SegOnly模式,只分词没有词性标注;

  2. SegPos模式,分词兼有词性标注。

// SegOnly modeString sentence = "滔滔的流水,向着波士顿湾无声逝去";
SegOnly seg = new SegOnly("seg_only.bin");
System.out.println(seg.segment(sentence));// [滔滔, 的, 流水, ,,&nb
        
		

网友评论