400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

获取验证码
企业采购 个人使用
当前位置: 首页 > SEO博客 > 服务器日志分析

服务器日志分析

时间:2013-12-09 16:50:57
服务器日志,顾名思义必然是服务器的运营状态的一种记录。在了解记录特性之前 首先要了解其字段记录的内容。首先来说说iis服务器的log日志的结构
- 日期(date):发出请求的日期。
  - 时间(time):发出请求的时间(协调世界时 (UTC))。
  - 客户端 IP 地址(c-ip):发出请求的客户端的 IP 地址。
  - 用户名(cs-username):访问服务器的已通过身份验证的用户的名称。匿名用户用连字符来表示。
  - 服务名(s-sitename):满足请求的站点实例编号。
  - 服务器名称(s-computername):生成日志文件项的服务器的名称。
  - 服务器 IP 地址(s-ip):生成日志文件项的服务器的 IP 地址。
  - 服务器端口(s-port):为服务配置的服务器端口号。
  - 方法(cs-method):请求的操作,例如 GET 方法。
  - URI 资源(cs-uri-stem):操作的统一资源标识符或目标。
  - URI 查询(cs-uri-query):客户端尝试执行的查询(如果有)。只有动态页面才需要统一资源标识符 (URI) 查询。
  - 协议状态(sc-status):HTTP 或 FTP 状态代码。
  - 协议子状态(sc-substatus):HTTP 或 FTP 子状态代码。
  - Win32 状态(sc-win32-status):Windows 状态代码。
  - 发送的字节数(sc-bytes):服务器发送的字节数。
  - 接收的字节数(cs-bytes):服务器接收的字节数。
  - 所用时间(time-taken):操作所花费的时间(毫秒)。
  - 协议版本(cs-version):客户端使用的协议版本(HTTP 或 FTP)。
  - 主机(cs-host):主机名称(如果有)。
  - 用户代理(cs(UserAgent)):客户端使用的浏览器类型。
  - Cookie (cs(Cookie)):发送或接收的 Cookie 内容(如果有)。
  - 引用站点(cs(Referer)):用户上次访问的站点。此站点提供与当前站点的链接。
根据日志中 #Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken 字段中的排列顺序 可以轻易获取其下每个字段所对应的意义,然而 apache服务器却与iis规整的输入方式相驳。apache并没有一个#Fileds开头的字段记录当前的字段输出内容 所以相比之下不是很有好。已下为apache中的log日志输出形式:
106.186.23.21 - - [07/Dec/2013:00:04:48 +0800] "GET /forum/ HTTP/1.0" 403 208 "http://www.helendoron.com.cn/forum/" "Mozilla/5.0 (Windows NT 5.1; rv:13.0) Gecko/20100101 Firefox/13.0"
其中以空格为分割每个字段,大致的意义如下 访问ip 空字段(记录浏览者的标识已废弃) 空字段(记录浏览者进行身份验证时提供的名字) 访问时间 记录服务器收到的请求类型 返回访问类型404等 量 跳转过来的网址 访问者的类型

了解了字段类型之后,可以通过字段的类型获得什么样的信息呢?其中最最基本的则是蜘蛛扒取的页面。和访问者访问的页面。而通过我们的各种信息组合,比如访问时间跟访问页面组合 可以查询出网站点击的高峰时段,用户访问的入口和出口。这比较关键,可以分析出网站的优势。那些页面比较吸引游客 哪些让人作呕,并以此来调整网站的内容。 最后则是通过用户的ip段和访问的页面模拟出用户的操作习惯。若是分析出了大部分用户的操作习惯,则可以把网站主打的内容 放置在更为显眼的地方,对于网站的ui优化也是一大帮助。
分享按钮