八步计算文本相似度

tf-idf方法的实践

sdq
Explore, Think, Create
6 min readMay 7, 2017

--

准备工作和模型建立

引入文本处理库gensim,手工制造一些原始数据。

使用NLTK进行分词。

创建词典,映射所有单词。

创建词袋模型语料库,记录每个文本的词频。

从语料库中生成tf-idf模型。tf-idf的全称是term frequency-inverse document frequency,Term frequency代表文档中单词出现的数量,inverse document fequency代表单词在文档中的稀有程度。最后打印出的num_nnz是词的总量。

在tf-idf模型中创建相似度模型。完工!

测试

创建一个测试文档,并转换成tf-idf。

相似度查询。可以看到和第二句的相似度是最高的。

--

--