Gensim提供对计算机和调用者友好,自动从文档中抽取语义主题的免费Python库。 Gensim处理原始数据、非结构化文本数据。Gensim中使用的算法包括潜在语义分析、潜在狄利克雷分布和随机预测,通过训练文档中的词的共现分布情况发现文本语义结构。这些算法是非监督的,在使用的时候不需要输入额外的数据,只需要输入语料即可。 一旦这些语料的统计分布模式确定,即可以比较不同文档之间的主题相似度。
特性
- 内存无关,语料库不会完整的加载进如村。
- 高效的实现若干流向的向量空间算法,包括tf-idf,潜在语义分析、LDA、随机预测;并且对新增算法也很友好
- 对流行的数据格式进行了封装和处理
- 文档的相似度查询
核心概念
Gensim的核心概念包括:语料库、向量和模型。
语料库
文档集合,用于推断文档结构和文档主题等,也叫做训练语料库。训练语料库训练好之后可以用于计算新文档的主题。训练语料库不需要进行人工标注。
向量
在向量空间中,每一个文档都用一个特征数组表示。例如,下面的每一个特征都用一对问答对表示:
1
2
3
4
1.How many times does the word splonge appear in the document? 0.
2.How many paragraphs does the document consist of? 2.
3.How many fonts does the document use? 5.
每一个问题用整数1,2,3表示,那么整个文档可以表示为:(1,0),(2,2),(3,5)。进一步的,可以省略问题ID,直接表示为(0,2,5)。这样文档就可以用一个三维数组表示了。
稀疏向量
通常情况下,文档中的大多数特征都是0。为了节省空间,通常在表示文档的时候将特征为0的维度省略,比如:(2,2),(3,5)。虽然省略了0,但是因为特征都是已知的,所以在恢复的时候可以把为0的特征恢复。
模型
模型从训练语料中学习得到,将原始语料库的向量表示转换为另一个向量。