文章浏览 复制本页面地址

linux下grep分析APACHE 服务器日志 命令集合

实例:

月份        英文简写        英文全称
一月        Jan.        January
二月        Feb.        February
三月        Mar.        March
四月        Apr.        April
五月        May.        May
六月        June.        June
七月        July.        July
八月        Aug.        Aguest
九月        Sept.        September
十月        Oct.        October
十一月        Nov.        November
十二月        Dec.        December

 日志分析整理 Grep 日志整理

1.分析日志文件下 2012-05-04 访问页面最高 的前20个 URL  并排序
cat access.log |grep '04/May/2012'| awk '{print $11}'|sort|uniq -c|sort -nr|head -20

 查询受访问页面的URL地址中 含有 www.abc.com 网址的 IP 地址

 cat access_log | awk '($11~/\www.abc.com/){print $1}'|sort|uniq -c|sort -nr

2. 获取访问最高的10个IP地址  同时也可以按时间来查询

cat linewow-access.log|awk '{print $1}'|sort|uniq -c|sort -nr|head -10

1.获得访问前10位的ip地址

cat access.log|awk '{print $1}'|sort|uniq -c|sort -nr|head -10

cat access.log|awk '{counts[$(11)]+=1}; END {for(url in counts) print counts[url], url}'

2.访问次数最多的文件或页面,取前20及统计所有访问IP

cat access.log|awk '{print $11}'|sort|uniq -c|sort -nr|head -20

awk '{ print $1}' access.log |sort -n -r |uniq -c|wc -l

cat wangsu.log | egrep '06/Sep/2012:14:35|06/Sep/2012:15:05' |awk '{print $1}'|sort|uniq -c|sort -nr|head -10   查询日志中时间段内的情况

3.列出传输最大的几个exe文件(分析下载站的时候常用)

cat access.log |awk '($7~/\.exe/){print $10 " " $1 " " $4 " " $7}'|sort -nr|head -20

 4.列出输出大于200000byte(约200kb)的exe文件以及对应文件发生次数

cat access.log |awk '($10 > 200000 && $7~/\.exe/){print $7}'|sort -n|uniq -c|sort -nr|head -100

 5.如果日志最后一列记录的是页面文件传输时间,则有列出到客户端最耗时的页面

cat access.log |awk '($7~/\.php/){print $NF " " $1 " " $4 " " $7}'|sort -nr|head -100

 6.列出最最耗时的页面(超过60秒的)的以及对应页面发生次数

cat access.log |awk '($NF > 60 && $7~/\.php/){print $7}'|sort -n|uniq -c|sort -nr|head -100

 7.列出传输时间超过 30 秒的文件

cat access.log |awk '($NF > 30){print $7}'|sort -n|uniq -c|sort -nr|head -20

 8.统计网站流量(G)

cat access.log |awk '{sum+=$10} END {print sum/1024/1024/1024}'

 9.统计404的连接

awk '($9 ~/404/)' access.log | awk '{print $9,$7}' | sort

 10. 统计http status.

cat access.log |awk '{counts[$(9)]+=1}; END {for(code in counts) print code, counts[code]}'

cat access.log |awk '{print $9}'|sort|uniq -c|sort -rn

 11.每秒并发:

awk '{if($9~/200|30|404/)COUNT[$4]++}END{for( a in COUNT) print a,COUNT[a]}'|sort -k 2 -nr|head -n10

 12.带宽统计

cat apache.log |awk '{if($7~/GET/) count++}END{print "client_request="count}'

cat apache.log |awk '{BYTE+=$11}END{print "client_kbyte_out="BYTE/1024"KB"}'

找出某天访问次数最多的10个IP

cat /tmp/access.log | grep "20/Mar/2011" |awk '{print $3}'|sort |uniq -c|sort -nr|head

当天ip连接数最高的ip都在干些什么:

cat access.log | grep "10.0.21.17" | awk '{print $8}' | sort | uniq -c | sort -nr | head -n 10

找出访问次数最多的几个分钟

awk '{print $1}' access.log | grep "20/Mar/2011" |cut -c 14-18|sort|uniq -c|sort -nr|head

--------------------------------------------------------------------------------------------------------------

查看tcp连接状态:

netstat -nat |awk '{print $6}'|sort|uniq -c|sort -rn

netstat -n | awk '/^tcp/ {++S[$NF]};END {for(a in S) print a, S[a]}'

netstat -n | awk '/^tcp/ {++state[$NF]}; END {for(key in state) print key,"\t",state[key]}'

netstat -n | awk '/^tcp/ {++arr[$NF]};END {for(k in arr) print k,"\t",arr[k]}'

netstat -n |awk '/^tcp/ {print $NF}'|sort|uniq -c|sort -rn

netstat -ant | awk '{print $NF}' | grep -v '[a-z]' | sort | uniq -c

netstat -ant|awk '/ip:80/{split($5,ip,":");++S[ip[1]]}END{for (a in S) print S[a],a}' |sort -n

netstat -ant|awk '/:80/{split($5,ip,":");++S[ip[1]]}END{for (a in S) print S[a],a}' |sort -rn|head -n 10

awk 'BEGIN{printf ("http_code\tcount_num\n")}{COUNT[$10]++}END{for (a in COUNT) printf a"\t\t"COUNT[a]"\n"}'

2.查找请求数请20个IP(常用于查找攻来源):

netstat -anlp|grep 80|grep tcp|awk '{print $5}'|awk -F: '{print $1}'|sort|uniq -c|sort -nr|head -n20

netstat -ant |awk '/:80/{split($5,ip,":");++A[ip[1]]}END{for(i in A) print A[i],i}' |sort -rn|head -n20

3.用tcpdump嗅探80端口的访问看看谁最高

tcpdump -i eth0 -tnn dst port 80 -c 1000 | awk -F"." '{print $1"."$2"."$3"."$4}' | sort | uniq -c | sort -nr |head -20

4.查找较多time_wait连接

netstat -n|grep TIME_WAIT|awk '{print $5}'|sort|uniq -c|sort -rn|head -n20

5.找查较多的SYN连接

netstat -an | grep SYN | awk '{print $5}' | awk -F: '{print $1}' | sort | uniq -c | sort -nr | more

6.根据端口列进程

netstat -ntlp | grep 80 | awk '{print $7}' | cut -d/ -f1

--------------------------------------------------------------------------------------------------------------

附 sort、uniq命令参数说明,print $n说明表:

173701jb206066szzm0u88 linux下grep分析APACHE 服务器日志 命令集合

sort命令将逐行对指定文件中的所有行进行排序,并将结果显示在标准输出上。如果不指定文件或者使用“一”

表示文件,则排序内容来自标准输入。排序比较是依据从输入文件的每一行中提取的一个或多个排序关键字进

行的。排序关键字定义了用来排序的最小的字符序列。在默认情况下,排序关键字的顺序由系统使用的字符集

决定。

选项:

-m 对己经排好序的文件统一进行合并,但不做排序。

-c 检查给定的文件是否己排好序,若没有,则显示出错消息,不做排序。

-u与-c 选项一起用,严格地按顺序检查;否则,对排序后的重复行只输出第一行。

-o 文件名 将排序输出放到该文件名所指定的文件中。如果该文件不存在,则创建一个新文件。

改变排序规则的选项主要有:

-d 按字典顺序排序,比较时仅考虑空白符和字母数字符。

-f 忽略字母的大小写。

-i 忽略非打印字符。

-M 规定月份的比较次序是(未知)<”JAN”<”FEB”<…<”DEC”。 

-r 按逆序排序。默认排序输出是按升序排序的。

-k n1[,n2] 指定从文本行的第n1字段开始至第n2字段(不包括第n2字段)中间的内容作为排序关键字。如果没有n2,则关键字是从第n1个字段到行尾的所有字段。n1和n2可以是小数形式。如”x.y”,x表示第x字段,y表示第x字段中的第y个字符。字段和字符的文职都是从1开始算起的。

-b 比较关键字时忽略前导的空白符(空格或制表符)。

-t 字符将指定的“字符”作为字段间的分隔符。

uniq [选项] 文件

说明:uniq命令读取输入文件,并比较相邻的行,去掉重复的行一行。该命令加工后的结果写到输出文件中。

输入文件和输出文件必须不同。用“一”表示,则从标准输入上读取。选项:

-c 显示输出时,在每行的行首加上该行在文件中出现的次数。

-d 只显示重复行。

-f --skip-fields=N  忽略比较前N个字段。

-s --skip-chars=N 忽略比较前N个字段。

-u 只显示文件中不重复的行。

 

当天ip连接数最高的ip都在干些什么:
cat access.log | grep "10.0.21.17" | awk '{print $8}' | sort | uniq -c | sort -nr | head -n 10
224 /test/themes/default/img/logo_index.gif
    224 /test/themes/default/img/bg_index_head.jpg
    224 /test/themes/default/img/bg_index.gif
    219 /test/vc.php
    219 /
    213 /misc/js/global.js
    211 /misc/jsext/popup.ext.js
    211 /misc/js/common.js
    210 /sladmin/home
    197 /misc/js/flib.js

 

找出访问次数最多的几个分钟:
 awk '{print $1}' access.log | grep "20/Mar/2011" |cut -c 14-18|sort|uniq -c|sort -nr|head
     24 16:49
     19 16:17
     16 16:51
     11 16:48
      4 16:50
      3 16:52
      1 20:09
      1 20:05
      1 20:03
      1 19:55

 

问题1:在apachelog中找出访问次数最多的10个IP。

 

awk '{print $1}' apache_log |sort |uniq -c|sort -nr|head -n 10

awk 首先将每条日志中的IP抓出来,如日志格式被自定义过,可以 -F 定义分隔符和 print指定列;

sort进行初次排序,为的使相同的记录排列到一起;

upiq -c 合并重复的行,并记录重复次数。

head进行前十名筛选;

sort -nr按照数字进行倒叙排序。

 

 

问题2:在apache日志中找出访问次数最多的几个分钟。

 

awk '{print  $4}' access_log |cut -c 14-18|sort|uniq -c|sort -nr|head

awk 用空格分出来的第四列是[09/Jan/2010:00:59:59;

cut -c 提取14到18个字符

剩下的内容和问题1类似。

问题3:在apache日志中找到访问最多的页面:

 

 

awk '{print $11}' apache_log |sed 's/^.*cn/(.*/)/"//1/g'|sort |uniq -c|sort -rn|head

类似问题1和2,唯一特殊是用sed的替换功能将”http://www.a.cn/common/index.php”替换成括号内的内容:”http://www.a.cn(/common/index.php)”

问题4:在apache日志中找出访问次数最多(负载最重)的几个时间段(以分钟为单位),然后在看看这些时间哪几个IP访问的最多?

1,查看apache进程:

ps aux | grep httpd | grep -v grep | wc -l

 

2,查看80端口的tcp连接:

netstat -tan | grep "ESTABLISHED" | grep ":80" | wc -l

 

 

6,用tcpdump嗅探80端口的访问看看谁最高

tcpdump -i eth0 -tnn dst port 80 -c 1000 | awk -F"." '{print $1"."$2"."$3"."$4}' | sort | uniq -c | sort -nr

接着从日志里查看该ip在干嘛:

cat access_log | grep 220.181.38.183| awk '{print $1"/t"$8}' | sort | uniq -c | sort -nr | less

 

 

7,查看某一时间段的ip连接数:

grep "2006:0[7-8]" www20110519.log | awk '{print $2}' | sort | uniq -c| sort -nr | wc -l

 

8,当前WEB服务器中联接次数最多的20条ip地址:

 

netstat -ntu |awk '{print $5}' |sort | uniq -c| sort -n -r | head -n 20

 

9,查看日志中访问次数最多的前10个IP

cat access_log |cut -d ' ' -f 1 |sort |uniq -c | sort -nr | awk '{print $0 }' | head -n 10 |less

 

10,查看日志中出现100次以上的IP

 

cat access_log |cut -d ' ' -f 1 |sort |uniq -c | awk '{if ($1 > 100) print $0}'|sort -nr |less

 

11,查看最近访问量最高的文件

 

cat access_log |tail -10000|awk '{print $7}'|sort|uniq -c|sort -nr|less

 

12,查看日志中访问超过100次的页面

 

cat access_log | cut -d ' ' -f 7 | sort |uniq -c | awk '{if ($1 > 100) print $0}' | less

 

13,列出传输时间超过 30 秒的文件

 

cat access_log|awk '($NF > 30){print $7}'|sort -n|uniq -c|sort -nr|head -20

 

14,列出最最耗时的页面(超过60秒的)的以及对应页面发生次数

 

cat access_log |awk '($NF > 60 && $7~//.php/){print $7}'|sort -n|uniq -c|sort -nr|head -100

标签:
上一篇:
下一篇: