如何分析网站日志(IIS、Apache、Ngnix)

March 23, 2015 | tags | views
Comments 9

网站日志分析是一个SEO高手必备的基本技能,如果你从来没有看过,分析过网站日志,那么你肯定不能说自己是一个顶级的SEOer。当网站出现流量异常,排名消失,或者服务器不稳定等情况时,你可以通过分析日志文件来做出一些基本的判断,甚至可以找到问题的具体原因。

 

曾经在帮朋友网站进行SEO诊断时,发现几个常见的问题:

         1、日志中大量出现404500401403504等错误。

         2、蜘蛛只爬行首页,不爬行内页。

         3、蜘蛛不爬行首页,或者爬行首页却不更新快照。

         4、别的蜘蛛爬行很勤快,但是百度蜘蛛却不怎么爬行。

         5、蜘蛛不爬行,或者只爬行robots.txt

 

那么这些问题分别代表什么意思呢?如何解决?

1、  错误404:找不到文件。这是最常见的错误,出现这个问题一般是由于网站改变,或者程序开发人员粗心大意,或者是程序未完全遵照SEO基本规范导致的。处理方法:先设置一个可以引导用户进入首页和主要栏目的404错误页面,并确保在返回这个页面时页面代码依然为404,这样可以告诉搜索引擎,本页面已经删除,但是我们依然能够正确的引导用户进入正确的栏目。然后去网站代码中检查是否依然有错误的链接地址,将这些地址全部修正,或者删除。如果你的网站没有robots.txt文件,请在服务器上放置一个空文件。如果没有favicon.ico(很多浏览器会在第一次打开你的域名时自动下载根目录下的该文件作为你的网站图标,如果你没有,就会在服务器上出现404错误)文件请下载或者找人设计一个。

2、  错误500:程序运行错误。这个错误在服务器性能不稳定或者代码有问题时较常出现。出现这个错误请找负责程序开发的人员,给出URL让程序员去处理。

3、  错误401403:这两个错误一般是网站文件所在的目录没有权限,或者某个目录下没有默认文档导致的。请正确的设置目录权限,确保每个目录下必定有一个默认文档(比如index.html),搜索引擎会在发现新目录时自动去爬行默认文档,如果没有就会报这个错误。

4、  错误504:这是服务器或者集群性能出现数据丢包时出现的,一般请联系服务器管理人员,找出问题出现的时间段,要求他们配合处理。

5、  蜘蛛只爬行首页,不爬或者很少怕内页:这是内页权重太低导致的。可能原因:

a)         内页结构过于简单。

b)         所有外链只导入首页。

c)         首页SEO优化过度。

d)         内页SEO优化过度。

e)         有较严重的作弊行为。

解决方法:

(1)、调整网站内页链接或者内容,增强用户体验,不要太过于简单。

(2)、适当为重要的内页导入合理的外链。

(3)、找出优化过度的代码,适当的调整。

(4)、删除作弊代码。

6、  蜘蛛只爬内页,不爬或者很少爬首页。可能原因

a)         首页过于简单。

b)         首页SEO优化过度或者严重作弊。

c)         大量外链只导入首页,或者只导入内页。

解决方法:

(1)、调整网站首页链接或者内容,增强用户体验,不要太过于简单。

(2)、适当外链建设要合理,不要太偏重首页或者内页。

(3)、找出优化过度的代码,适当的调整。

(4)、删除作弊代码。

7、  别的蜘蛛爬行很勤快,但是百度蜘蛛却不怎么爬行。可能原因:

a)         你的网站还没有被百度蜘蛛发现或者重视。

b)         你的外链或者内容不符合百度权值算法,被置为低质量站点,但是其他搜索引擎认为你的网站是高质量站点。

c)         你的网站作弊,被百度蜘蛛发现并适当惩罚。

解决方法:

(1)、向百度提交你的网站,或者适当的为你的网站建设一些外部链接。

(2)、请合理的使用SEO技巧,删除或调整不符合用户体验的手法。

(3)、每个搜索引擎反作弊算法和惩罚都不相同,不管做任何网站请以用户体验为核心。

8、  蜘蛛不爬行,或者只爬行robots.txt。可能原因:

a)         robots.txt文件不存在。

b)         网站访问特别慢

c)         非常严重的作弊,被严厉惩罚。

解决方法:

(1)、增加一个空的robots.txt文件。

(2)、请更换一个优质的空间或者服务器,或者运营商。

(3)、删除作弊内容,重构网站。

 

在日常工作中,如果直接打开日志文件,一行行地查看,显然效率非常低下。而且有可能错过重要的内容,那么使用日志分析工具就显得非常必要。以下是笔者常用的一款站长工具,为大家演示一下日常工作时需要关注和分析的几点。

 

我们可以从上面的日志数据中分析到以下几个情况:

12是网站存在大量的错误,最终所有的蜘蛛都不爬行这个网站。

3的区域点击数字后,可以看到大量的403(没有权限)错误。导致这个网站百度不访问首页,且有些搜索引擎基本上不访问这个网站。

4的区域是大量的404错误,这样的网站严重有问题,通常是刚刚改版的网站。

5的区域是百度蜘蛛只爬行内页,不爬行首页。

10行是百度蜘蛛只爬行首页不爬行内容,这样的网站赶快去检查自己是不是严重作弊了吧。

 

点击对应的数值,我们可以打开详细列表页面:

在文本框中输入域名可以实现点击下面的网址直接打开日志所在的页面,方便检查和后续工作。状态可以看到问题的原因,点击状态码可以直接查看网站状态码的原因。点击访问IP可以对IP溯源,发现是否是虚假百度蜘蛛,或者是什么客户产生了这个日志。最后可以把日志导出,交由负责人处理这些问题。

也可以使用这个金花站长工具的网站体检功能,能模拟40多项搜索引擎算法为你提供一些常规和基本的SEO建议,帮助你快速的找出问题,协助你及时调整和修复。 

 

 

 


    相关文章:



发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。