• 欢迎来到老丁学习笔记

[Python与SEO]日志分析:404状态码检测流程

python与seo laoding 2年前 (2017-09-12) 935次浏览 0个评论

上周网站突然间出现大量的404状态码(如下图所示),初步对这些404状态码表示怀疑,可能是冒充百度爬虫的再大量抓取,造成404。

[Python与SEO]日志分析:404状态码检测流程

今天开始对这几天的404状态码ip进行检测,整个流程图如下:

[Python与SEO]日志分析:404状态码检测流程

最后得到三个文本文件,分别记录404日志记录、百度爬虫404记录以及非百度爬虫404记录,如下图所示:

[Python与SEO]日志分析:404状态码检测流程

从文件大小看出,非百度爬虫访问记录占了巨大多数。然后将这些ip地址刷选出来,扔给运维部门全部干掉。

整个404状态码ip地址检测代码如下:

 


老丁笔记,如未注明 , 均为原创,欢迎转载丨转载请注明[Python与SEO]日志分析:404状态码检测流程
喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址