通过以上的各种可行性分析结果,可以得出开发出来网络评论的智能获取与筛选系统是可行的,不存在特别困难的因素影响系统的开发。 第二章 LDA模型和
通过以上的各种可行性分析结果,可以得出开发出来网络评论的智能获取与筛选系统是可行的,不存在特别困难的因素影响系统的开发。
第二章 LDA模型和TF-IDF算法原理
2.1 LDA模型
2.1.1 LDA文档生成过程
LDA全名为潜在狄利克里分布,是三层贝叶斯产生式概率模型,概率主题模型中的一个特例,该模型假设每一篇文档都是由许多个潜在的主题组成的,而主题是由词典中的词汇组成,不同的文章的区别就是其潜在主题的分布不同。想要使用LDA推测文档的主题,首先需要了解文档的生成过程,LDA的作者给出了一个例子,先给出需要生成文档的主题,通过主题和词的分布和文档主题的分布随机生成一些词组成文档,只不过这样形成的文档没有具体的语义,只是由不同主题的词组成的词串。LDA模型结构如图2-1。
图2-1 LDA图模型结构
图中根据狄利克雷分布α取样生成文档的主题分布θ^d,再根据主题的分布取样生成文档的主题z_l^d ,从狄利克雷分布β取样生成主题词的分布φ^t,最后主题词的分布和文档主题的分布联合生成这篇文章词的分布w_l^d ,也就是得到这个文档的词。有了这个过程我们可以通过已知的一些分布推测文档的主题的分布。
2.1.2 LDA概率模型
LDA模型分析首先需要一个文档集 ,每篇文章都是由词串组成的,因此可以得到一个词典 ,用 w_l^d表示为文档d中第l个词,假设文章隐藏的主题集 ,用 z_l^d表示文档d中第l个词所属的主题。用φ_v^t表示主题词的分布,θ_t^d表示文档主题的分布。
LDA模型中的φ_v^t和θ_t^d都是未知的隐含变量,可以使用Gibbs Sampling来学习估计。Gibbs Sampling是Markov-Chain Monte Carlo算法的一个特例。初始时给文档中的每个词随机分配一个主题z_l^d,然后统计文档d中分到主题t中的词的个数m_t^d和文档集中词v分到主题t的次数n_v^t,根据分布公式(2-1)生成一个新的主题,即排除当前词的主题分布,根据其他所有的词的主题分配估计该词分配各个主题的概率,得到该词属于所有主题z的概率分布后,根据这个分布为该词从新采样得到一个新的主题。然后使用同样的方法为更新所有词的主题,直到每个文档中主题的分布θ_t^d和每个主题下词的分布φ_v^t收敛,根据公式(2-2)计算出参数θ_t^d和φ_v^t的值,每个词的主题也同时可以得出。