【概述】
除了使用单词向量空间的度量来表示两个文本的语义相似度外,还可以使用话题相似度来进行表示
话题(Topic),并没有严格的定义,其是指文本所讨论的内容或者主题,一个文本一般含有若干话题,若两个文本的话题相似,那么两者的语义应该也相似
话题可以由若干语义相关的单词表示,同义词可表示为同一个话题,多义词可表示为不同的话题,这样一来,基于话题的模型就能解决单词向量空间模型中语义相似度不精确的问题
话题向量空间模型(Topic Vector Space Model)就是基于话题的最简单模型,对于给定的文本集合,将其中的每一个文本的用话题空间的向量进行表示,向量的每一维对应该文本中的一个话题,其数值为该话题在该文本中出现的权值,这样一来,文本集合中的每个文本都表示为一个向量,存在于一个话题空间中,向量空间的度量就表示为文本间的语义相似度,需要注意的是,话题的个数通常远小于单词个数
单词向量空间与话题向量空间可以互为补充,在实际应用中,两者可以同时使用
【定义】
对于一个含有 $n$ 个文本的集合 $D=\{d_1,d_2,\cdots,d_n\}$,以及在所有文本中出现的 $m$ 个单词的集合 $W=\{w_1,w_2,\cdots,w_m\}$,可以获得其单词-文本矩阵:
其中,元素 $x_{ij}$ 表示为单词 $w_i$ 在文本 $d_j$ 中出现的频数或权值
假设所有文本共含有 $K$ 个话题,每个话题由一个定义在单词集合 $W$ 上的 $m$ 维向量 $\mathbf{t}_k$ 表示,称为话题向量,即:
其中,$t_{ik}$ 是单词 $w_i$ 在话题 $\mathbf{t}_k$ 上的权值,权值越大,单词在话题中的重要度就越高
这 $K$ 个话题向量 $\mathbf{t}_1,\mathbf{t}_2,\cdots,\mathbf{t}_K$ 张成的向量空间 $T$ 即话题向量空间(Topic Vector Space),其是单词向量空间 $X$ 的一个子空间
话题向量空间可以表示为一个矩阵,称为单词-话题矩阵(Word-topic Matrix),记作:
【文本在话题向量空间的表示】
考虑文本集合 $D$ 中的文本 $d_j$,其在单词向量空间中由一个向量 $\mathbf{x}_j$ 表示,将 $\mathbf{x}_j$ 投影到话题向量空间 $T$ 中,可得到在话题向量空间中的一个向量 $\mathbf{y}_j$,其表达式为:
其中,$y_{jk}$ 是文本 $d_j$ 在话题 $\mathbf{t}_k$ 上的权值,权值越大,该话题在该文本上的重要度就越高
用矩阵 $Y$ 表示话题在文本中出现的情况,称为话题-文本矩阵(Topic-document Matrix),记作: