LDA (Latent Dirichlet Allocation)是一个多层产生式概率模型,包含词、主题和文档3个层次。在LDA模型中,D为文档集(|D|=N),W为词集(|W|=M),表示隐主题(||=K)。文档dD由i 随机混合生成,表示成词集上的序列模式d{w1 ,w2 ,…,wi ,…},wi W;而主题i (i=1,2,…,K)则是W上的多项式分布,LDA的图模型如图3所示:
与
是模型的重要参数。
与主题的先验分布Dirichlet有关,反映文档集
D中隐主题的相对强度;
刻画主题自身的概率分布。在主题层,
i (
i=1,2,…,
K )为“主题—词”分布,由
K×
M的矩阵
参数化。在文档层,
d (
d=1,2,…,
N)为“文档—主题”分布,表征文档
d在主题空间上的分布,由
确定;在词层,
zi (
i=1,2,…,
M)表示文档
d分配在每个词项上隐主题分量,服从参数为
d 的多项式分布。构造LDA模型的核心是推断隐变量,即确定
和
。在已知文档集词分布
W的前提下,逆向推导
zi (
i=1,2,…,
M),进而推断
t (
t=1,2,…,
K )和
d (
d=1,2,
…,
N )。模型构建涉及多个未知量,一般采用近似方法求解,如利用Gibbs抽样估计
w的主题分布
[8]。
本研究借助“中文情感词汇本体”,提取情感词,构造基于情感词序列的评论描述。再利用LDA隐主题模型对评论集进行情感主题分析,挖掘评论内容中的用户情绪。