【开源中文分词工具探析】系列:

  1. 中文分词工具探析(一):ICTCLAS (NLPIR)

  2. 中文分词工具探析(二):Jieba

  3. 中文分词工具探析(三):Ansj

  4. 开源中文分词工具探析(四):THULAC

  5. 开源中文分词工具探析(五):FNLP


1. 前言

Jieba是由fxsjy大神开源的一款中文分词工具,一款属于工业界的分词工具——模型易用简单、代码清晰可读,推荐有志学习NLP或Python的读一下源码。与采用分词模型Bigram + HMM 的ICTCLAS 相类似,Jieba采用的是Unigram + HMM。

网友评论