• 欢迎来到老丁学习笔记

标签:gensim计算相似度

python数据分析

利用gensim计算两个中文文档/字符串的相似度

利用gensim计算两个中文文档/字符串的相似度
背景:网站标题重复度非常严重,需要将重复标题提取出来,然后进行统一修改。 步骤: 1、从数据库中导出某个类目下的所有标题,title.txt; 2、从title.txt文件中,找出相似度为0.6以上的标题; 流程图: 结果如下所示: 注意:有重复值的出现。需要去重。 完整代码如下: Python ……继续阅读 »

laoding 2年前 (2017-10-05) 2个赞