前言
相信许多的站长、博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果用php代码分析web日志中蜘蛛爬虫痕迹,是比较好又比较直观方便操作的!下面是示例代码,有需要的朋友们下面来一起看看吧。
示例代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
|
<?php //获取蜘蛛爬虫名或防采集 function isSpider(){ $bots = array ( 'Google' => 'googlebot' , 'Baidu' => 'baiduspider' , 'Yahoo' => 'yahoo slurp' , 'Soso' => 'sosospider' , 'Msn' => 'msnbot' , 'Altavista' => 'scooter ' , 'Sogou' => 'sogou spider' , 'Yodao' => 'yodaobot' ); $userAgent = strtolower ( $_SERVER [ 'HTTP_USER_AGENT' ]); foreach ( $bots as $k => $v ){ if ( strstr ( $v , $userAgent )){ return $k ; break ; } } return false; } //获取哪种蜘蛛爬虫后保存蜘蛛痕迹。 //根据采集时HTTP_USER_AGENT是否为空来防止采集 //抓蜘蛛爬虫 $spi = isSpider(); if ( $spi ){ $tlc_thispage = addslashes ( $_SERVER [ 'HTTP_USER_AGENT' ]); $file = 'robot.txt' ; $time = date ( 'Y-m-d H:i:s' , mktime ()); $handle = fopen ( $file , 'a+' ); $PR = $_SERVER [ 'REQUEST_URI' ]; fwrite( $handle , "Time:{$time} ROBOT:{$spi} AGENT:{$tlc_thispage} URL:{$PR} \n\r" ); fclose( $handle ); } ?> |
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有问题大家可以留言交流。