用scikit-learn学习LDA主题模型

发布时间：2017年05月27日作者：IT网络文摘

　在LDA模型原理篇我们总结了LDA主题模型的原理，这里我们就从应用的角度来使用scikit-learn来学习LDA主题模型。除了scikit-learn, 还有spark MLlib和gensim库也有LDA主题模型的类库，使用的原理基本类似，本文关注于scikit-learn中LDA主题模型的使用。

1. scikit-learn LDA主题模型概述

　　　　在scikit-learn中,LDA主题模型的类在sklearn.decomposition.LatentDirichletAllocation包中，其算法实现主要基于原理篇里讲的变分推断EM算法，而没有使用基于Gibbs采样的MCMC算法实现。

　　　　而具体到变分推断EM算法，scikit-learn除了我们原理篇里讲到的标准的变分推断EM算法外，还实现了另一种在线变分推断EM算法，它在原理篇里的变分推断EM算法的基础上，为了避免文档内容太多太大而超过内存大小，而提供了分步训练(partial_fit函数)，即一次训练一小批样本文档，逐步更新模型，最终得到所有文档LDA模型的方法。这个改进算法我们没有讲，具体论文在这：“Online Learning for Latent Dirichlet Allocation” 。

　　　　下面我们来看看sklearn.decomposition.LatentDirichletAllocation类库的主要参数。

2. scikit-learn LDA主题模型主要参数和方法

　　　　我们来看看LatentDirichletAllocation类的主要输入参数:

　　　　1) n_topics: 即我们的隐含主题数

分类导航

用scikit-learn学习LDA主题模型

1. scikit-learn LDA主题模型概述

2. scikit-learn LDA主题模型主要参数和方法

网友评论

更多精彩分享