分类导航

Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

发布时间：2017年03月15日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

　在上篇实现了电影详情和短评数据的抓取。到目前为止，已经抓了2000多部电影电视以及20000多的短评数据。

　　数据本身没有规律和价值，需要通过分析提炼成知识才有意义。抱着试试玩的想法，准备做一个有关情感分析方面的统计，看看这些评论里面的小伙伴都抱着什么态度来看待自己看过的电影，怀着何种心情写下的短评。

　　鉴于爬取的是短评数据，少则10来个字，多则百来个字，网上查找了下，发现Google开源的Word2Vec比较合适，于是今天捣鼓了一天，把自己遇到的问题和运行的结果在这里做个总结。

　　Word2Ve是google 推出的做词嵌入（word embedding）的开源工具。简单的说，它在给定的语料库上训练一个模型，然后会输出所有出现在语料库上的单词的向量表示，这个向量称为"word embedding"。基于这个向量表示，可以计算词与词之间的关系，例如相似性(同义词等)，语义关联性（中国 - 北京 = 英国 - 伦敦）等。

　　算法的原理如果有兴趣，可以找资料了解。

　　这里使用Word2Vec的大致流程如下：

　　　　1. 获取数据（这里是豆瓣电影短评数据）

分类导航

Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

延伸阅读

我想了解如何学习