• 欢迎来到老丁学习笔记

标签:python3

python数据分析

利用gensim计算两个中文文档/字符串的相似度

利用gensim计算两个中文文档/字符串的相似度
背景:网站标题重复度非常严重,需要将重复标题提取出来,然后进行统一修改。 步骤: 1、从数据库中导出某个类目下的所有标题,title.txt; 2、从title.txt文件中,找出相似度为0.6以上的标题; 流程图: 结果如下所示: 注意:有重复值的出现。需要去重。 完整代码如下: Python ……继续阅读 »

laoding 2年前 (2017-10-05) 3个赞

python数据分析

windows下python3安装scipy总是失败

windows下python3安装scipy总是失败
安装scipy,总是提示:Failed building wheel for scipy。(解决方法转自知乎)原因是scipy要依赖于numpy和其他的很多库(如LAPACK/BLAS),但这些库在windows下并不是可以简单获取的。 解决方式: 1、卸载此前安装好的numpy(如果此前安装的是包括MKL库的numpy,这不就跳过) 卸载命令是:pip u……继续阅读 »

laoding 2年前 (2017-10-05) 0个赞

python与seo

百度链接如何解码

百度链接如何解码
从日志“访问来源”中获取来自百度方面的链接,这些链接完全看不懂,并且有重定向和编码,如下图所示: https://www.baidu.com/baidu.php?sc.p13K00afhoYcwjS7PwEuRDTtBBQzVa51heijQ1uzSauZJMav29kdM4EkLSli5mrgtm_TETFo56t2GOxB7m_vowAoasyRftNF……继续阅读 »

laoding 2年前 (2017-09-26) 0个赞

python与seo

[Python与SEO]日志分析:404状态码检测流程

[Python与SEO]日志分析:404状态码检测流程
上周网站突然间出现大量的404状态码(如下图所示),初步对这些404状态码表示怀疑,可能是冒充百度爬虫的再大量抓取,造成404。 今天开始对这几天的404状态码ip进行检测,整个流程图如下: 最后得到三个文本文件,分别记录404日志记录、百度爬虫404记录以及非百度爬虫404记录,如下图所示: 从文件大小看出,非百度爬虫访问记录占了巨大多数。然后将这些……继续阅读 »

laoding 2年前 (2017-09-12) 0个赞