本站所有内容仅限于本地断网调试与学习,如有侵权请邮件与我们联系处理!

网站首页 蜘蛛池 蜘蛛池技术 正文

php记录搜索引擎爬行记录的实现代码

曹操 2022-09-14 蜘蛛池技术 130 ℃ 0 评论 2639字 free

以前分享过类似的代码,但是没有做出注释,并且部分代码有累赘,所以重新分享一下,下面是完整代码:

//记录搜索引擎爬行记录 $searchbot = get_naps_bot(); 

if ($searchbot) 
{ $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']); //首先读取UA并小写处理
$url = $_SERVER['HTTP_REFERER']; //输出URL
$file = WEB_PATH.'robotslogs.txt'; //这里设置蜘蛛记录文件的路径及文件名
$date = date('Y-m-d H:i:s'); //输出时间
$data = fopen($file,'a'); //调用文本
fwrite($data,"Time:$date robot:$searchbot URL:$tlc_thispage/r/n");  //这里进行蜘蛛输出
fclose($data);
}

WEB_PATH为index.php下define的根目录路径,意思就是说robotslogs.txt文件是放在根目录下的。

通过get_naps_bot()获取蜘蛛爬行记录,然后在通过addslashes处理一下,将数据存储于变量$tlc_thispage中。

fopen打开robotslogs.txt文件,将数据通过函数fwrite写入,在通过函数fclose关闭就可以了。

多搜索引擎的蜘蛛记录代码

支持如下的搜索引擎:Baidu,Google,Bing,Yahoo,Soso,Sogou,Yodao爬行网站的记录!

<?php 
/**
* 获取搜索引擎爬行记录
* edit by www.jb51.net
*/
function get_naps_bot() 
{ 
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']); 
if (strpos($useragent, 'googlebot') !== false){ 
return 'Google'; 
} 
if (strpos($useragent, 'baiduspider') !== false){ 
return 'Baidu'; 
} 
if (strpos($useragent, 'msnbot') !== false){ 
return 'Bing'; 
} 
if (strpos($useragent, 'slurp') !== false){ 
return 'Yahoo'; 
} 
if (strpos($useragent, 'sosospider') !== false){ 
return 'Soso'; 
} 
if (strpos($useragent, 'sogou spider') !== false){ 
return 'Sogou'; 
} 
if (strpos($useragent, 'yodaobot') !== false){ 
return 'Yodao'; 
} 
return false; 
} 
function nowtime(){ 
$date=date("Y-m-d.G:i:s"); 
return $date; 
} 
$searchbot = get_naps_bot(); 
if ($searchbot) { 
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']); 
$url=$_SERVER['HTTP_REFERER']; 
$file="www.jb51.net.txt"; 
$time=nowtime(); 
$data=fopen($file,"a"); 
fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispage\n"); 
fclose($data); 
} 
?>

总结

以上所述是小编给大家介绍的php记录搜索引擎爬行记录,希望对大家有所帮助,如果大家有任何疑问请在文章下方留言,看到会及时回复大家的。

Tags:蜘蛛爬虫搜索引擎cookie存活检测蜘蛛

必看说明

  • 本站中所有被研究的素材与信息全部来源于互联网,版权争议与本站无关。
  • 本站文章或仅为文本内容原创,非程序原创。如有侵权、不妥之处,请联系站长第一时间删除。敬请谅解!
  • 本站所有内容严格遵守国家法律的条例,所有研究的算法技术均来源于搜索引擎公开默认允许用户研究使用的接口。
  • 阅读本文及获取资源前,请确保您已充分阅读并理解《访问曹操SEO网站需知:行为准则》。
  • 本站分享的任何工具、程序仅供学习参考编写架构,仅可在本地的虚拟机内断网测试,严禁联网运行或上传搭建!
  • 任何资源必须在下载后24个小时内,从电脑中彻底删除。不得传播或者用于其他任何用途!否则一切后果用户自负!
  • 转载请注明 : 文章转载自  曹操资源网 php记录搜索引擎爬行记录的实现代码
  • 本文标题:《php记录搜索引擎爬行记录的实现代码》
  • 本文链接:http://www.ccooc.cc/1154.html

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

网站分类
最新留言
文章归档
标签列表
站点信息
  • 文章总数:1332
  • 页面总数:1
  • 分类总数:47
  • 标签总数:337
  • 评论总数:39
  • 浏览总数:245225
嘿,欢迎咨询