• 欢迎来到老丁学习笔记

利用gensim计算两个中文文档/字符串的相似度

python数据分析 laoding 2年前 (2017-10-05) 4028次浏览 0个评论

背景:网站标题重复度非常严重,需要将重复标题提取出来,然后进行统一修改。

步骤:

1、从数据库中导出某个类目下的所有标题,title.txt;

2、从title.txt文件中,找出相似度为0.6以上的标题;

流程图:

利用gensim计算两个中文文档/字符串的相似度

结果如下所示:

利用gensim计算两个中文文档/字符串的相似度

注意:有重复值的出现。需要去重。

完整代码如下:

注:

1、这个方法适用于比较两个文档,而同一个文档中比较相似度,会造成大量重复。

2、在 http://www.52nlp.cn/如何计算两个文档的相似度(二) 基础上稍作了些改动。其中gensim使用一点都不懂,只是依葫芦画瓢做了下来。

3、后续如果有机会深究下去的话,再来补充代码中几个问题。


老丁笔记,如未注明 , 均为原创,欢迎转载丨转载请注明利用gensim计算两个中文文档/字符串的相似度
喜欢 (2)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址