最近更新


海瑶seo:如何去面对优化中的...

海瑶SEO:负面SEO不等于黑帽SEO,负面SEO就是通过一些不益于搜...
haiyaoseo:学SEO技...

测试专用:最近不少人同学或者朋友在QQ、QQ群、微信等等社交平台里提问...
刘军SEO:教你一招SEO神技...

今天刘军SEO跟大家分享一个SEO神技——百度霸屏,这个词语听起来很霸...
泊君seo:钻研不更新背后的s...

泊君seo:钻研不更新背后的seo原理,为何人家半年不更新一篇文章,每...
狼雨seo:2018年做好se...

狼雨seo:2018年做好seo你需要了解这四个趋势,保证你们的网站在...
刘军seo博客:百家号审核要多...

因为刘军seo博客之前有开通百度百家,所有百家号一上线我登陆百家号的时...
洋舰SEO研究中心培训教程:如...

洋舰SEO研究中心今天给大家分享一下案例,如何刷百度指数。本来这种操作...
sitemap是什么?site...

sitemap是一个网站提供给网络爬虫用以获取该网站链接数据的文件,以...
百度指数是什么?百度指数如何查...

百度指数是什么?百度指数(Baidu Index)是以百度海量网民行为...
关键词密度是什么意思?关键词密...

关键词密度(Keyword Density)是用来量度关键词在网页上出...
软文是什么意思?软文如何写?...

软文是什么意思?是由企业的市场策划人员或广告公司的文案人员来负责撰写的...
搜索引擎沙盒效应...

沙盒效应(Sandbox Effect),指的是网站在搜索引擎中很难得...

SEO自学教程(37) : 什么是网站日志

网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件,确切的讲,应该是服务器日志。网站日志最大的意义是记录网站运营中比如空间的运营情况,被访问请求的记录。通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。

分析方法

1、访问次数、停留时间、抓取量

从这三项数据中我们可以得知:平均每次抓取页面数、单页抓取停留时间和平均每次停留时间。

平均每次抓取页面数=总抓取量/访问次数

单页抓取停留=每次停留/每次抓取

平均每次停留时间=总停留时间/访问次数

从这些数据我们可以看出蜘蛛的活跃程度、亲和程度、抓取深度等,总访问次数、停留时间、抓取量越高、平均抓取页面、平均停留时间,表明网站越受搜索引擎喜欢。而单页抓取停留时间表明网站页面访问速度,时间越长,表明网站访问速度越慢,对搜索引擎抓取收录较不利,我们应尽量提高网页加载速度,减少单而立停留时间,让爬虫资源更多的去抓取收录

作用

通过网站日志可以清楚的得知访客和服务端等应用是否正常运行,或者存在哪些缺陷,失效组件等信息。

对于专业从事搜索引擎优化工作者而言,网站日志可以记录各搜索引擎蜘蛛机器人爬行网站的详细情况,例如:哪个IP的百度蜘蛛机器人在哪天访问了网站多少次,访问了哪些页面,以及访问页面时返回的HTTP状态码。

查看方法

网站日志一般存放在虚拟主机的logfiles文件夹下,可以通过FTP工具将网站日志下载下来,下载下来的为log格式的文档,可通过txt文档方式查看。

如何查看自己的服务器的日记? (以Windows 2003系统为例)

1、开始--管理工具--事件查看器--系统 或者 控制面板--管理工具--事件查看器--系统。

2、在远程客户端,运行IE浏览器,在地址栏中输入"https://Win2003服务器IP地址:8098",如"https://192.168.1.1:8098"。在弹出的登录对话框中输入管理员的用户名和密码,点击"确定"按钮即可登录Web访问接口管理界面。接着在"欢迎使用"界面中点击"维护"链接,切换到"维护"管理页面,然后点击"日志"链接,进入到日志管理页面。在日志管理页面中,管理员可以查看、下载或清除Windows 2003服务器日志。选择系统日志可进行查看。并且在日志管理页面中可列出Windows 2003服务器。

分析软件

市面上各家网页服务器自发展初随时都会纪录其所有的交易于一个日志档里头。这种特性不久就被网管意识到可以透过软件读取它,以提供网页流行度的相关资料;从而造成网站日志分析软件的兴起。

90年代早期,网站统计资料仅是简单的客户端对网站服务器请求 (或者访问) 的记数值。一开始这是挺合理的方法,因为每个网站通常只有单一个HTML档案。然而,随着图形进入 HTML 标准,以及网站扩增至多重 HTML 档案,这种记数变得没什么帮助。最早真正的商用日志分析器于1994年由 IPRO 发行[1]。

90年代中期,两种计量单位被引入以更准确的估计人类于网站服务器上的活动总数。它们是网页点阅数(Page Views) 以及访问量(Visits,或者节区(Session))。一次的网页点阅数定义为客户端对服务器提出某单一网页读取请求,恰好为对某一图形请求的相反;而一次的访问量则定义为来自于某一唯一已识别的客户端对服务器一连串请求直到闲置一段时间──通常为30分钟──为止。网页点阅数与访问量仍旧在报告上十分常见,不过现今它们被当作是过于简单的量度。

90年代末期,随着网络蜘蛛与机器人问世,伴随着大型企业以及互联网服务提供商使用代理服务器与动态指定IP地址,鉴别某网站单一访客变得更困难。对此,日志分析器以指定Cookie作为追踪访问量的对策,并忽略已知的蜘蛛机器人的读取请求。

网页快取的广泛使用也造成日志分析上的问题。如果某人再度造访某页,第二次的读取请求通常由网页浏览器快取达成,因此网站服务器端不会接受到此请求。这意味着该访问者浏览过该站的"足迹"丢失。快取与否可于设定网站服务器时克服,不过这可能导致降低该网站的效能。

日志分析

从网站上下载下的网站日志,在txt文本中就可以看到以下数据:

117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)"

分析:

117.26.203.167 访问ip

02/May/2011:01:57:44 -0700 访问日期 -时区

GET/index.php HTTP/1.1 根据HTTP/1.1 协议 抓取(域名下)/index.php 这个页面(GET表示服务器动作)

500 服务器响应状态码

服务器响应状态码通常状态码有以下几种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,如果是搜索引擎,则证明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理,302则是暂时性重定向。404则代表所访问的页面已经不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。

19967 表示抓取了19967个字节

Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar 表示访问者使用火狐浏览器及Alexa Toolbar 等访问端信息

如果你的日志里格式不是如此,则代表日志格式设置不同。

很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。

抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。

当然,我们希望百度蜘蛛每日抓取的次数越多越好。

日志语法

#Software: Microsoft Internet Information Services 6.0 #Software:表示软件名称

#Version: 1.0 #Version:表示版本号

#Date: 2013-03-13 00:05:17 #Date:表示时间

#Fields:说明如下#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken

date:表示记录访问日期; 2013-03-13

00:05:17 time:访问具体时间

W3SVC212 s-sitename:表示你的虚拟主机的代称或机器码

116.255.196.2529s-ip:服务器IP

GET cs-method:表示访问方法或发生的请求/提交事件,常见的有两种:一个是GET,就是平常我们打开一个URL访问的动作,另一个是POST,提交表单时的动作

/xiaohuxingzhuangxiuxiaoguotu/218.html cs-uri-stem:用户在当前时间访问哪一个文件或具体页面

- cs-uri-query:是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用"-"表示

80 s-port:访问的端口

- cs-username:访问者名称,如果没有参数则用"-"表示

218.30.103.86c-ip:访问者IP

Sogou+web+spider/4.0 cs(User-Agent):访问的搜索引擎和蜘蛛名称

200sc-status:Http状态码,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错

0 子状态码 HTTP子协议的状态.一般来说网站都是不使用子协议的,所以这个代码为0就是很正常的

0 win32状态码是0,如果被64位系统访问,那么这里记录的就是64 sc-substatus:服务端传送到客户端的字节大小

12304 sc-bytes服务端传送到客户端的字节大小 服务器发送的字节数

256 cs-bytes客户端传送到服务端的字节大小 服务器接受的字节数

93 time-taken:time-taken处理时间(一段日志分析到此结束)

2013-03-13 00:12:37 W3SVC212 116.255.196.252 GET / - 80 - 220.181.108.99 Mozilla/5.0+(compatible;+Baiduspider/2.0;++ )

2013-03-13 00:12:37 W3SVC212 116.255.196.252 GET /index.html - 80 - 220.181.108.153 Mozilla/5.0+(compatible;+Baiduspider/2.0;++ )

http状态码后面几位数据没有固定格式,如果只有一个表示下载数据字节大小;

2、Http状态码:

1**:请求收到,继续处理

2**:操作成功收到,分析、接受

3**:完成此请求必须进一步处理

4**:请求包含一个错误语法或不能完成

5**:服务器执行一个完全有效请求失败


相关链接:

洋舰SEO教程自学网,提供SEO优化的SEO培训教程、SEO优化培训VIP服务,同时提供SEO查询站长工具、SEO排名查询等。SEO交流QQ号 :   28770128

标签: SEO基础知识 SEO术语 SEO入门教程 seo优化教程 seo自学网
上一篇:SEO自学教程(36) : 什么是友情链接
下一篇:SEO自学教程(38) : 什么是垃圾链接