分类导航

结巴（jieba）中文分词及其应用实践

发布时间：2017年07月10日作者： IT网络文摘 (该文来自笔记，点击查看原文)

中文文本分类不像英文文本分类一样只需要将单词一个个分开就可以了，中文文本分类需要将文字组成的词语分出来构成一个个向量。所以，需要分词。
这里使用网上流行的开源分词工具结巴分词（jieba），它可以有效的将句子里的词语一个个的提取出来，关于结巴分词的原理此处不再赘述，关键是他的使用方法。
1、安装
结巴分词是一个Python的工具函数库，在python环境下安装，安装方式如下：
（1）python2.x下
全自动安装：easy_install jieba 或者 pip install jieba
半自动安装：先下载http://pypi.python.org/pypi/jieba/ ，解压后运行python setup.py install
手动安装：将jieba目录放置于当前目录或者site-packages目录
通过import jieba 来引用
（2）python3.x下
目前master分支是只支持Python2.x 的
Python3.x 版本的分支也已经基本可用： https://github.com/fxsjy/jieba/tree/jieba3k

git clone https://github.com/fxsjy/jieba.git
git checkout jieba3k
python setup.py install

2、使用
在使用它的时候首先要用import jieba代码导入jieba库，而由于中文文本中可能除了文本内容以外还有一些符号比如括号、等号或箭头等，还需要将这些通过正则表达式的方式匹配出来并删除，
由于使用到了正则表达式，所以还需要使用import re来导入相关函数库。
具体代码如下：

def textParse(sentence):
    import jieba
    import re
    #以下两行过滤出中文及字符串以外的其他符号
    r= re.compile("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）
        
        	
        		延伸阅读
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁
        			2017-07-26
        			
        			
        			
        			消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 论文笔记【图片目标分割】
        			2017-07-26
        			
        			
        			
        			词向量-LRWE模型-更好地识别反义词同义词
        			2017-07-26
        			
        			
        			
        			从栈不平衡问题 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 处理 图片剪切、压缩、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift实现JSON转Model - HandyJSON使用讲解
        			2017-07-26
        			
        			
        			
        			阿里移动安全 Android端恶意锁屏勒索应用分析
        			2017-07-26
        			
        			
        			
        			集合结合数据结构来看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		学习是年轻人改变自己的最好方式

分类导航

结巴（jieba）中文分词及其应用实践

延伸阅读

我想了解如何学习