自从自己从事SEO网站优化以来,自己慢慢的去关注网站日志。网站日志分析成为自己每天工作的第一件事情,每天一到公司第一时间就是对昨天的网站日志进行分析。也许部分站长们还不会分析网站日志,这个可以参阅下之前皇冠网小编发表过的《略懂网站日志分析,网站更安全》,但也有少部分觉得分析网站日志就是在浪费时间,天天看着那些数据有什么作用。这里皇冠网小编觉得至少有四点我们可以了解到。
第一、 确定是否有蜘蛛过来爬行
如何确定是否有蜘蛛过来爬行:
1、 通过观看网站日志代码进行观看,这个针对分析高手
2、 通过网站日志分析工具进行观看,这个比较适合新手使用
通过网站日志分析工具可以直接查看站点有哪些页面已经被蜘蛛爬行抓取了。
第二、 客户ip便知蜘蛛类型。
1、220.181.108.*ip段的百度蜘蛛(提权蜘蛛)
2、123.125.71.*ip段的百度蜘蛛(劣质文章捉取蜘蛛)
3、123.125.68.*ip段的百度蜘蛛(考察蜘蛛)
4、117.28.255.*ip段的百度蜘蛛(假冒蜘蛛)
5、。。。。。。
第三、 检测页面状态正常与否
通过网址日志我们可以直接的服务器响应代码看出我们的页面哪些有问题,哪些正常的。一般情况下返回的状态码是200的话说明正常,出现404的话,说明页面出现问题。
第四、 搜索引擎对站点的友好程度
从网站日志,我们可以直接的看出蜘蛛来我们站点的爬行次数,爬行次数越多说明蜘蛛对我们的站点越友好。
通过上图我们可以直接的看出蜘蛛对我们站点的爬行次数了,但是这里面的爬行次数里面也存在冒牌的蜘蛛,所以我们还需要通过客户ip进行确认哪些是真正的蜘蛛,哪些是冒牌的。这个可以参阅《略懂网站日志分析,网站更安全》里面有图文教程,介绍如何区别真假蜘蛛,这里就不再介绍了。
通过上面三点的了解,皇冠网hg-seo.com小编对以上四点进行进一步的探知:
针对上面第一、我们可以直接的查看哪些页面被爬行抓取了,哪些没有。随着算法的不断更新,新站的考察期越来越长了,以至于好多新站长更新的文章通过site:域名,查收录都没有显示。这大部分是因为搜索引擎滞留了没有及时释放。
针对上面第二、我们可以通过客户ip辨别站点安全信息及文章内容质量怎样
根据不同的IP我们可以分析网站是个怎样的状态,以下常见的百度蜘蛛IP:
1、123.125.68.*常来,别的来的少,那么站点进入沙盒,或被者降权的可能性非常高。
2、220.181.68.*每天只增加没有减少,则是进入沙盒或者被降权的预兆。
3、220.181.7.*、123.125.66.* 搜索引擎开始要抓取东西。
4、121.14.89.*摆脱了新站考察期。
5、203.208.60.*站点开始不正常。
6、210.72.225.*这个ip段不间断巡逻各站。
7、220.181.108.*高质量文章内容页或首页抓取。
一般成功抓取返回代码都是 200 0 0返回,若返回状态显示304 0 0代表网站没更新,蜘蛛来过,但没抓取。如果是 200 0 64,那么也别担忧,这只不过是一些动态页面的抓取。
针对上面第三、如果服务器返回状态,比如200 表示正常访问。404 表示页面不存在。304代表网页还没更新。这些都可以通过网站日志里面的代码直接看出来的。如果大量的出现404的话,那么非常有必要对这些404的页面进行采取措施。我们可以用robots.txt协议来屏蔽这些页面,不让搜索引擎来爬行这个页面。
针对上面第四、真的蜘蛛来的次数越多越好!
好了,对网站日志就介绍里面。网站日志可以通过以下两种方式获得:
1、 ftp空间log文件夹
2、 登入你站点的服务器,通常网站日志位置C:WINDOWS-system32-LogFiles