◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
apache日志文件支持蜘蛛!!
这几个月都是玩转apache,玩是玩熟了..问题是日志文件没有robots的痕迹...只显示IP的那种..于是百度了一下.搜索出来两种解决方案.
方案1:
打开http.conf文件 查找CustomLog logs/access.log common ,在前面加上#号,再查找CustomLog logs/access.log combined ,把前面的#号去掉。重启apache,打开php\Apache2\logs\access.log文件,这时蜘蛛爬行痕迹就会出现:
220.181.50.239 - - [03/Apr/2009:22:39:45 +0800] "GET /fangfa/index.html HTTP/1.1" 200 6126 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
220.181.50.247 - - [03/Apr/2009:22:39:46 +0800] "GET /fangfa/ HTTP/1.1" 200 6126 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
看页面就知道了,一个新页面被百度蜘蛛爬到了。
注意:要是 查找CustomLog logs/access.log common查不到,可以查common 因为我就遇到了这个问题,其中的格式有点不同,大家可以搜索common和combined,这样就可以找到,然后照着上面的修改就可以.
可是上面的解决方案是针对所有的apache的日志.那么如果一个网站独立的日志 需要如何设置才能知道我当前网站是否搜索引擎蜘蛛来过呢?请看方案二
方案2:
apache日志为什么不记录百度蜘蛛?这个问题相信很多初学者都基本碰到了,apache日志默认是不记录百度蜘蛛,谷歌和各大搜索引擎的蜘蛛程序的,但只需要修改一个地方就可以解决这个问题,现在就直接将答案写出来:
比如曾经有个朋友在百度知道中提问:
<IfModule log_config_module>
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined
LogFormat "%h %l %u %t \"%r\" %>s %b" common
<IfModule logio_module>
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %I %O" combinedio
</IfModule>
CustomLog "logs/access.log" common
</IfModule>
这是我目前的设置,不记住主机名
哪位给我提供个范本 记录访问明细和主机头记录蜘蛛的
1、打开httpd.conf文件找到以下部分:
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combinedLogFormat "%h %l %u %t \"%r\" %>s %b" commonLogFormat "%{Referer}i -> %U" referer
LogFormat "%{User-agent}i" agent
具体有关LogFormat的用法请参照:
2、接着我们继续向下移动,找到虚拟主机配置段,也就是VirtualHost段,这个是由你自己来配置的。本站的虚拟主机的日志文件是这样设置的:
CustomLog /var/html/faq/logs/linux520-access.log combined如果你想记录百度蜘蛛的访问全称,就按色部分设置,如果不想记录百度蜘蛛的头部分,则如下设置:
CustomLog /var/html/faq/logs/linux520-access.log common
按照以上设置一下,看看你的日志文件是否发生变化了。。
PS以上两种方案都比较的解决了apache蜘蛛访问的问题,但是日志文件也要定期做清理,.那么再写一个bat吧.然后加到系统的日志执行文件中,让他定时执行文件清理吧.代码如下:
------------------
@echo off
echo 正在帮您清除Apache日志文件,请稍等www.seohn.cn......
set count=1
del /f /s /q "D:\Backup\桌面\新建文件夹\access.log" set count=count+1
echo 清除Apache日志文件完成!
echo 共清理%count%个日志文件!
echo. & pause
---------------------
D:\Backup\桌面\新建文件夹\为网站日志文件的根目录..自己去测试吧.
点击下载BAT
文章来源:http://www.seohn.cn/seo/apache_log/
转载请著名版权:湖南SEO 浏览更多SEO知识,关注seo随笔 seo案例 HTML地图
版权所有。转载时必须以链接形式注明作者海军和原始出处及本声明。
