之前做过一个网站遇到这样的问题:网站改版之后遗留了很多死链接,为了让百度不收录这些页面,于是设置了404页面,但是后来发现,这些大量的404页面百度仍然在收录,多次向百度提交过死链,依然没有改善。有人说这是百度的问题,很多人都遇到过这种情况。这样的问题如果属于比较小型的网站可能很难感觉到影响,但是一旦网站规模比较大,而且死链又比较多,就会对网站本身的收录、权重、排名、流量带来影响。
最后在一些朋友的帮助下,404页面的收录问题终于得到解决。这里也说一些题外话,如果你的网站遇到了自己暂时不能解决的问题,不妨多和别人沟通交流,相信会有人能很快的解决你的这些疑难问题。
我们都知道404页面的一些基本规则,但是却很少有人重视,即使你发现了这些问题也因为感觉问题不大就没有继续深究下去。不过,如果你任由这样的漏洞存在,时间长了就会自食其果了,所以笔者建议作为站长,任何细微的问题都应该有穷追猛打的劲头。这里,我将自己对404页面的一些新的认识分享出来,也欢迎更多的朋友跟我交流合作。
404页面会不会被收录
关于这个问题,看法并不统一,有人说404页面不会被收录,404本身就是告诉搜索引擎以及访问者这个页面已经不存在了,请绕道或者去其他的页面逛逛。也有一些人认为404页面会被收录。在企赢001可以找到比较专业的说法:搜索引擎不会收录404页面,但是有例外的情况,那就是已经收录过的页面被删除后设置的404,百度会收录。这一点,跟笔者的网站遇到的情况类似,笔者也是通过企赢001的专家才解决了这些问题。
404页面被收录的危害:
404页面收录的一个特征就是已经设置了404的页面,百度仍然放出来,可以检索的到,但是快照一直不会更新。
少数的404页面被收录,或者你的网站本身就没有多少404页面,就不会感觉多有多少危害。而对于哪些成立不久,但是发展快速的网站来说,庞大的数据之下就必然有大量的死链、错误链接,这时候你就不能回避404页面被收录的问题。让我们先来看一下404页面被收录的一些危害:
1、页面对搜索引擎来说没有价值
对于搜索引擎来说,一个URL就是一个页面,一般来说网站的404页面都是一样的设置,所以一旦搜索引擎蜘蛛抓取了这些页面,就会导致有大量的页面内容相同,可想而知,搜索引擎会如何对待你的网站。
2、影响其他页面的收录和权重,进而影响流量
网站的权重影响蜘蛛的抓取时间和抓取次数,所以一个网站能够得到多少蜘蛛的多少次抓取都是相对固定的,换句话说蜘蛛在一段时间内抓取你网站的数据是有限的。假设蜘蛛把资源都浪费在这些404页面了,那网站中真正有价值的页面的抓取量就变少,这些404页面99%的都因为没有价值而不会被收录,这样就会影响网站的收录,同时会影响网站的流量。
如果需要删除被收录的页面应该如何处理?
1、页面数量少,可以设置成404页面,404的页面的状态码必须是404(Not Found),这样搜索引擎才会认为网页已经失效,会将页面从搜索结果中删除。
2、如果被收录的页面数量多,考虑到网站权重的问题,可以设置成301重定向,将权重专递下去,不过这一点也需要慎重。
3、你确定这些大量的收录页面需要从收录结果页删除掉,可以利用robots.txt文件,禁止蜘蛛爬行。
实践中遇到的问题往往比较复杂,单纯从网上搜索关键词来找答案,一般快速的解决问题,正如前面所说的,与别人沟通、交流才能解决问题,提高自己。