【概述】
概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)也称概率潜在语义索引(Probabilistic Latent Semantic Indexing,PLSI),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法
PLSA 受 LSA 启发,由 Hofmann 于 1999 年提出,与 LSA 不同的是,LSA 基于非概率模型,PLSA 基于概率模型,其假设每个文本由一个话题分布决定,每个话题由一个单词分布决定,利用隐变量表示话题,整个模型表示为一个由文本生成话题、话题生成单词,进而得到单词-文本共现数据的过程