nagios之集成snmptt
一、什么是SNMPTT(SNMP Trap Translator)
SNMPTT是用perl写的SNMP trap处理器,它需要使用Net-SNMP/UCD-SNMP snmptrapd程序。SNMPTT支持Linux,Unix和Windows。具体工作原理如下图:
Net-SNMP程序的snmptrapd是收集和记录SNMP trap,并通过TCP/IP发送消息的程序。
snmptrapd程序接收到的告警的输出如下,一般格式为 variable name=value, variable name=value。
Feb 12 13:37:10 server11 snmptrapd[25409]: 192.168.110.192: Enterprise Specific Trap (3008) Uptime: 306 days, 23:13:24.29, .1.3.6.1.2.1.1.5.0 = SERVER08, .1.3.6.1.4.1.232.11.2.11.1.0 = 0, .1.3.6.1.4.1.232.3.2.3.1.1.4.8.1 = rebuilding(7)
or
Feb 12 13:37:10 server11 snmptrapd[25409]: 192.168.110.192: Enterprise Specific Trap (3008) Uptime: 306 days, 23:13:24.29, sysName.0 = SERVER08, cpqHoTrapFlags.0 = 0, cpqDaLogDrvStatus.8.1 = rebuilding(7)
使用SNMPTT的变量替换功能,消息可以变的更友好,如在SNMPTT 配置文件中定义如下的格式:
FORMAT Logical Drive Status Change: Status is now $3.
那么上面收到的消息将会显示,可以看出,第三个变量rebuilding被替换显示出来:
Feb 12 13:37:13 server11 TRAPD: .1.3.6.1.4.1.232.0.3008 Normal "XLOGONLY" server08 - Logical Drive Status Change: Status is now rebuilding
SNMPTT可以将输出记录到文本日志,NT event 日志,SQL数据库,或者通过外部程序传给Nagios,邮件客户端等。除了变量替换,SNMPTT允许如下复杂的配置:
*接受或拒绝一个trap信息,基于主机名/IP地址/网络段/trap变量中的值
*执行外部程序来发送page,email等
*执行正则表达式来匹配和替换消息中的内容。
二、软件前提需求
1.perl及模块支持
(1). Perl 5.6.1 or higher. SNMPTT is developed with 5.6.1 and 5.8.0, but other versions may also work.
(2). Required: Net-SNMP (formerly known as UCD-SNMP). Specifically snmptrapd.
(3). Required: Text::ParseWords module (included with most distributions including ActivePerl)
(4). Required: Getopt::Long module (included with most distributions including ActivePerl)
(5). Required: Posix module (included with most if not all distributions including ActivePerl)
(6). Required: Config::IniFiles module
(7). Required: Time::HiRes module (only required when using SNMPTT in daemon mode - required by snmptthandler)
(8). Required: Sys::Hostname module (included with most if not all distributions including ActivePerl).
(9). Required: File::Basename module (included with most if not all distributions including ActivePerl).
(10). Required: Text::Balanced module (included with most if not all distributions including ActivePerl).
其中 Config::IniFiles、 Text::Balanced等比较少用,可以使用cpan进行安装,可能安装过程中碰到模块信赖的问题,像我碰到了信赖关系,例: Config::IniFiles信赖Perl::OSType、Bundle::CPAN和ExtUtils::MakeMaker,有时候还是满麻烦的。碰到问题,慢慢解决,嘿嘿。
2.其他软件支持
(1).nagios:3版本以上,下载链接:http://www.nagios.org/download/core
(2).snmptt:1.3版本了,网上有gz包和rpm包,根据自己需求来下载了。
gz包下载地址:http://sourceforge.net/projects/snmptt/
三、snmptt和snmptrapd的安装及配置:
1.snmptt的安装及配置
<1>. 下载snmptt.tgz 包解压
<2>. 拷贝snmptt到/usr/sbin, 加可执行权限(chmod +x snmptt)
<3>. 拷贝snmptthandler到/usr/sbin,加可执行权限(chmod +x snmptthandler)
<4>. 拷贝snmptt.ini 到/etc/snmp或者/etc。更改文件中的选项。
<5>. 创建日志文件夹/var/log/snmptt
<6>. 创建spool文件夹(daemon mode会使用)
mkdir /var/spool/snmptt/
<7>. 拷贝启动脚本到init.d目录
cp snmptt.init.d /etc/rc.d/init.d/snmptt
<8>. 增加启动项
chkconfig --add snmptt
chkconfig --level 2345 snmptt on
service snmptt start
或者手工执行snmpttt
snmptt --daemon
<9>. 拷贝日志轮训脚本cp snmptt.logrotate /etc/logrotate.d/snmptt,并根据具体目录更改文件中的路径
<10>. 手工创建snmptt.conf文件,或者使用snmpttconvertmib工具创建。
使用命令:
snmpttconvertmib --in=<MIB file> --out=/etc/snmp/snmptt.conf.<equipment> \ --exec='/usr/local/nagios/libexec/eventhandlers/submit_check_result $r TRAP 1'
例:
*其中MIB file可以到各具体设置的官网上进行下载
<11>. 更改snmptt.ini文件包含snmptt.conf.*文件,并设置选项
<12>. 启动snmptt: service snmptt restart
2.snmptrapd的配置:
<1>.配置snmptrapd的配置文件/etc/snmp/snmptrapd.conf
对于standlone mode: 更改Net-SNMP的snmptrapd.conf配置文件,添加如下行:
traphandle default /usr/sbin/snmptt
对于 daemon mode,更改Net-SNMP的snmptrapd.conf配置文件,增加如下行:
traphandle default /usr/sbin/snmptthandler
第一行:配置一个认证的community,设置所有用户的访问权限:可执行,记录,传递同时方便agent进行使用snmptrap进行命令测试;
第二行:接收到的trap信息默认调用/usr/sbin/snmptt来进行处理。同时也可以针对具体的OID,来指定调用的程序;
第三行:禁止访问控制检查 will disable the above access control checks, and revert to the previous behaviour of accepting all incoming notifications.
第四行:禁止通知的日志记录disables the logging of notifications altogether. This is useful if the snmptrapd application should only run traphandle hooks and should not log traps to any location.
注: snmptrapd.conf有很多很多具体的参数配置,具体可以man一下。
<2>.snmptrapd服务启动配置:
使用如下命令启动snmptrapd,snmptrapd -On.
如果存在/etc/rc.d/init.d/snmptrapd文件,则也要更改添加上选项”-On”。
OPTIONS="-On -Lf /var/log/snmptrapd.log -p /var/run/snmptrapd.pid"
注:具体参数意思可查看帮助
四、snmptt.ini主配置文件的配置
[General]
snmptt_system_name =
mode = standalone
multiple_event = 1
dns_enable = 0
strip_domain = 0
strip_domain_list = <<END
domain.com
END
resolve_value_ip_addresses = 0
net_snmp_perl_enable = 1
net_snmp_perl_best_guess = 2
translate_log_trap_oid = 0
translate_value_oids = 1
translate_enterprise_oid_format = 1
translate_trap_oid_format = 1
translate_varname_oid_format = 1
translate_integers = 1
wildcard_expansion_separator = " "
allow_unsafe_regex = 0
remove_backslash_from_quotes = 0
dynamic_nodes = 0
description_mode = 2
description_clean = 1
threads_enable = 0
threads_max = 10
[DaemonMode]
daemon_fork = 1
daemon_uid = snmptt
pid_file = /var/run/snmptt.pid
spool_directory = /var/spool/snmptt/
sleep = 5
use_trap_time = 1
keep_unlogged_traps = 1
duplicate_trap_window = 0
[Logging]
stdout_enable = 0
log_enable = 1
log_file = /var/log/snmptt/snmptt.log
log_system_enable = 1
log_system_file = /var/log/snmptt/snmpttsystem.log
unknown_trap_log_enable = 1
unknown_trap_log_file = /var/log/snmptt/snmpttunknown.log
statistics_interval = 0
syslog_enable = 0
syslog_facility = local0
syslog_level_debug = <<END
END
syslog_level_info = <<END
END
syslog_level_notice = <<END
END
syslog_level_warning = <<END
END
syslog_level_err = <<END
END
syslog_level_crit = <<END
END
syslog_level_alert = <<END
END
syslog_level = warning
syslog_system_enable = 0
syslog_system_facility = local0
syslog_system_level = warning
[Exec]
exec_enable = 1
pre_exec_enable = 1
[TrapFiles]
snmptt_conf_files = <<END
/etc/snmp/snmptt.conf.default
/etc/snmp/snmptt.conf.hp
END
注:根据自己的需求进行配置各选项,对于和mysql,pgsql等配置在此不做详解;
五、SNMPTT.CONF 配置文件格式
snmptt.conf文件的语法为:
EVENT event_name event_OID "category" severity
FORMAT format_string
[EXEC command_string]
具体信息参见 snmptt官网
1.EVENT event_name event_OID "category" severity
<1>.event_name:
不能包含空格。当使用snmpttconvertmib转换时,这个名字将与MIB文件中TRAP-TYPE或者NOTIFICATION-TYPE行的名字匹配
<2>.event_OID:
一般形式如:.1.3.6.1.4.1.232.0.11001
如果Net-SNMP perl模块安装,并且在snmptt.ini文件中设置了net_snmp_perl_enable为开启,则可以使用符号名,如: linkDown IF-MIB::linkDown
注:当翻译OID时,Net-SNMP 5.0.9 和更早的版本不支持包含模块名字(如:IF-MIB::) 。
SNMP V1 traps 的企业ID格式为(.1.3.6.1.4.1.232) ,后面跟上一个0,再跟上trap号(11001)。这样可能导致在配置文件中相同的trap OID存在多条定义。如果在snmptt.ini文件中允许了multiple_event,那么将处理所有匹配的traps。如果multiple_event禁止,只有第一个匹配的条目被使用,OID中可以使用通配符,例如:.1.3.6.1.4.1.232.1.2.*
<3>.category
特色字符串包含在双引号中。如果为“IGNORE”,则snmptt.conf中包含的FORMAT和EXEC都忽略。如果类型为“LOGONLY”,则trap信息被日志记录,EXEC声明被忽略。
注:如果你打算使用Naigos等外部程序,则最好不要设置任何trap为LOGONLY,就好像不要使用EXEC来进行被动服务检查。
<4>.severity:
事件的级别,用于日志。如:Minor,Major,Normal,Critical,Warning。
2.FORMAT format_string
每个EVENT只能有一行FORMAT
使用如下的变量在字符串上进行变量替换:
$A - Trap agent host name (see Note 1)
$aA - Trap agent IP address
$Be - securityEngineID (snmpEngineID) (see Note 7)
$Bu - securityName (snmpCommunitySecurityName) (see Note 7)
$BE - contextEngineID (snmpCommunityContextEngineID) (see Note 7)
$Bn - contextName (snmpCommunityContextName) (see Note 7)
$c - Category
$C - Trap community string
$D - Description text from SNMPTT.CONF or MIB file (see Note 6)
$E - Enterprise trap OID in symbolic format
$e - Enterprise trap OID in number format
$Fa - alarm (bell) (BEL)
$Ff - form feed (FF)
$Fn - newline (LF, NL)
$Fr - return (CR)
$Ft - tab (HT, TAB)
$Fz - Translated FORMAT line (EXEC only)
$G - Generic trap number (0 if enterprise trap)
$H - Host name of the system running SNMPTT
$S - Specific trap number (0 if generic trap)
$N - Event name defined in .conf file of matched entry
$i - Event OID defined in .conf file of matched entry (could be a wildcard OID)
$O - Trap OID in symbolic format (see Note 4)
$o - Trap OID in numerical format (see Note 4)
$R, $r - Trap hostname (see Note 1)
$aR, $ar - IP address
$s - Severity
$T - Uptime: Time since network entity was initialized
$X - Time trap was spooled (daemon mode) or current time (standalone mode)
$x - Date trap was spooled (daemon mode) or current date (standalone mode)
$# - Number of (how many) variable-bindings in the trap
$$ - Print a $
$@ - Number of seconds since the epoch of when the trap was spooled (daemon mode) or the current time (standalone mode)
$n - Expand variable-binding n (1-n) (see Note 2,5)
$+n - Expand variable-binding n (1-n) in the format of variable name:value (see Note 2,3,5)
$-n - Expand variable-binding n (1-n) in the format of variable name (variable type):value (see Note 2,3,5)
$vn - Expand variable name of the variable-binding n (1-n)(see Note 3)
$* - Expand all variable-bindings (see Note 5)
$+* - Expand all variable-bindings in the format of variable name:value (see Note 2,3,5)
$-* - Expand all variable-bindings in the format of variable name (variable type):value (see Note 2,3,5)
* 注2: 如果snmptt.ini文件中的translate_integers被允许,SNMPTT将尝试查找MIB文件,将收到的trap中的数字转换为文本。为了使这个功能可用还有如下条件需要满足:必须安装了Net-SNMP/UCD-SNMP模块,并在snmptt.ini文件中开启了net_snmp_perl_enable选项。
另外,为了是该功能可用,需要确保Net-SNMP/UCD-SNMP配置正确。如果选项开启,却没有将数字转换成文本,数字将会使用。如果MIB文件存在,但是却没有转换,需要在snmp.conf文件中正确配置,来处理所有的mibs。或者,你可以在snmptt.ini文件中设置mibs_enviroment变量为ALL
* 注3:如果需要$vn,$+n,$-n变量名和类型转换为文本,则也需要在snmptt.ini文件中开启net_snmp_perl_enable选项。 这个其实和注2一样。
* 注4:如果需要将数字的OID转换为文本,需要在snmptt.ini文件中,开启translate_trap_oid选项和net_snmp_perl_enable选项,并安装了Net-SNMP/UCD-SNMP模块。
* 注6: snmptt.ini文件中必须设置description_mode值为1或者2。 如果设置为1,描述从SNMPTT.CONF文件中获取。如果设置为2,描述从MIB文件中获取。
3.[EXEC command_string]
可以一个EVENT,多行EXEC。
当一个trap接收到后,则按照顺序执行命令。
EXEC使用的变量替换跟FORMAT行中的一样。 例如:
EXEC /usr/bin/qpage -f TRAP alex "$r: $x $X - NIC switchover to slot $3, port $4 from slot $5, port $6"
EXEC c:\snmp\pager netops "$r: $x $X - NIC switchover to slot $3, port $4 from slot $5, port $6"
4.此次案例中snmptt.conf.cisco文件的内容为:
#端口开启操作定义
EVENT authenticationFailure .1.3.6.1.6.3.1.1.5.4 "Status Events" Normal
FORMAT Link Up
EXEC /apps/usr/nagios/libexec/eventhandlers/submit_check_result "$A" "Snmp_Trap" "2" "$2 $Fz"
#端口关闭操作定义
EVENT authenticationFailure .1.3.6.1.6.3.1.1.5.3 "Status Events" Normal
FORMAT Link Down
EXEC /apps/usr/nagios/libexec/eventhandlers/submit_check_result "$A" "Snmp_Trap" "2" "$2 $Fz"
5. PREEXEC
[PREEXEC command_string]
每个EVENT,可以有多行PREEXEC
当 一个trap收到后,在FORMAT和EXEC声明执行之前,要执行得语句和命令。外部程序的输出将保存在$pn变量中,n从1开始计数。当有多行 PREEXEC时,第一个PREEXEC存储结果到$p1,第二个PREEXEC将结果存在$p2。要开启这个功能,需要在snmptt.ini文件中, 设置pre_exec_enable选项
例子:
EVENT linkDown .1.3.6.1.6.3.1.1.5.3 "Status Events" Normal
FORMAT Link down on interface $1($p1). Admin state: $2. Operational state: $3
PREEXEC /usr/local/bin/snmpget -v 1 -Ovq -c public $aA ifDescr.$1
6. NODES
[NODES sources_list]
可以限制哪些设备可以映射为事件定义
每个EVENT,可以有多个NODES行。
sources_list中可以包含任意主机名、IP地址、网络地址或者文件名的组合。如果这个字符串被省略,则所有的设备都被接受。
如果想192.168.1.0/24网段的设备可以触发这个EVENT, 你可以使用一条NODE语句:
NODES 192.168.1.0/24
这里有两种操作模式,POS(positive-默认)和NEG(negative)。如果设置为POS,那么NODES中的任何一行匹配,则允许。如果设置为NEG,只有当NODES中都不匹配时,才允许。为了改变操作模式,使用如下声明:
NODES MODE=POS
NODES MODE=NEG
这个特色经常用在,对于相同的事件,一些需要按照常规处理,一些需要按照特殊处理。如
例一
NODES fred barney betty wilma
例二
NODES fred barney betty wilma
NODES MODE=NEG
7. MATCH
[MATCH [MODE=[or | and]] | [$n:[!][( )[i] | n | n-n | > n | < n | x.x.x.x | x.x.x.x-x.x.x.x | x.x.x.x/x]]
匹配这个MATCH的trap,才可以引发相应的EVENT定义。
如果一条MATCH声明已经存在,没有trap匹配它,默认的,没有EVENT定义会被匹配。
如下的perl正则表达式被支持:
i – 忽略大小写
如下的命令模式可用:
MATCH MODE=[or | and]
MATCH $x: [!] (reg) [i]
MATCH $x: [!] n
MATCH $x: [!] n-n
MATCH $x: [!] < n
MATCH $x: [!] > n
MATCH $x: [!] & n
MATCH $x: [!] x.x.x.x
MATCH $x: [!] x.x.x.x-x.x.x.x
MATCH $x: [!] x.x.x.x/x
$x 是任意变量(如$3,$A等)
reg是正则表达式
! 是用于negate结果(非)
& 相当于AND
n 是一个数字
x.x.x.x 是IP地址
x.x.x.x-x.x.x.x 是IP地址段
x.x.x.x/x 是IP段
注:如果为了基于IP地址/主机名来限制可以映射的EVENT的设备,推荐使用NODES关 键字。
如果模式设置为’or’,只要有一条匹配,则认为结果是true;如果模式为and,只要有一 条匹配失败,则认为结果为false。
在表达式中使用圆括号(),需要跟在\号之后。
如果没有MATCH MODE=这样的行存在,默认为or。
每个EVENT,只能有一条match mode存在。如果多行MATCH MODE=存在,只有最后一样被使用。
例如:
$2必须在1000到2000之间:MATCH $2: 1000-2000
任何匹配(or):$3等于52,或者$4是IP地址段192.168.1.10-192.168.1.20,或者severity为Major:
MATCH $3: 52
MATCH $4: 192.168.1.10-192.168.1.20
MATCH $s: (Major)
全部匹配(and): $3大于20,$5不包含关键词alarm或者critical, $6 必须字符串’(1)remaining’ , $7 必须包含字符串’power’,不管是大写还是小写:
MATCH $3: >20
MATCH $5: !(alarm|critical)
MATCH $6: (\(1\) remaining)
MATCH $7: (power)i
MATCH MODE=and
8. REGEX
[REGEX( )( )[i][g][e]]
在translated FORMAT/ EXEC行 进行搜索和替换。
多个REGEX()()行被允许。
第一个()包含了查找的表达式;第二个()包含了替换的文本。
如下的Perl正则表达式被支持:
i - 当匹配左侧时忽略大小写
g - 替换所有匹配的部分,而不是仅替换查找到的第一个匹配
e - 执行右侧的代码
为了使用capture替换,或者e参数,需要在snmptt.ini文件中设置allow_unsafe_regex为1
如果有多行REGEX,那么从上到下的处理,并且结果是累加的。即第二行处理第一行产生的结果。
例1:
处理前的FORMAT行:UPS has detected a building alarm. Cause: UPS1 Alarm #14: Building alarm 3.
REGEX (Building alarm 3)(Computer room high temperature)
REGEX (Building alarm 4)(Moisture detection alarm)
REGEX (roOm)(ROOM)ig
REGEX (UPS)(The big UPS)
REGEX (\s+)( )g
处理后的FORMAT行:The big UPS has detected a building alarm. Cause: UPS1 Alarm #14: Computer ROOM high temperature
列2:在查找部分使用圆括号,需要前面加上\。替换部分不需要使用
处理前的FORMAT行:Alarm (1) and (2) has been triggered
REGEX (\(1\))(One)
REGEX (\(2\))((Two))
处理后的FORMAT行:Alarm One and (Two) has been triggered
列3: 如果设置了allow_unsafe_regex,那么captures可以在替换部分使用
处理前的FORMAT行:The system has logged exception error 55 for the service testservice
REGEX (The system has logged exception error (\d+) for the service (\w+))(Service $2 generated error $1)
处理后的FORMAT行:Service testservice generated error 55
列4:如果设置了allow_unsafe_regex允许,并且使用了e参数,右侧的部分被执行。
处理前的FORMAT行:Authentication Failure Trap from IP address: C0 A8 1 FE
REGEX (Address: (\w+)\s+(\w+)\s+(\w+)\s+(\w+))("address: ".hex($1).".".hex($2).".".hex($3).".".hex($4))ei
处理后的FORMAT行:Authentication Failure Trap from IP address: 192.168.1.254
9. SDESC EDESC
这两个标识符之间的是描述,会被snmptt忽略。
六、其他配置说明
1.Standalone 模式
为了在standalone模式下使用SNMPTT,snmptrapd.conf文件需要包含如下行:
traphandle default /usr/sbin/snmptt
当SNMPTRAPD收到一个trap,将这个trap传递给/usr/sbin/snmptt脚本。SNMPTT执行如下的任务:
* 读取从snmptrapd传递的trap
* 载入包含trap定义的配置文件
* 查找trap的匹配
* 记录日志,执行EXEC语句等
* 退出
2. Daemon 模式
当SNMPTT运行在daemon模式时,需要在snmptrapd.conf文件中,添加如下行:
traphandle default /usr/sbin/snmptthandler
当SNMPTRAPD接收到一个trap时,trap被传递给/usr/sbin/snmptthandler脚本。SNMPTTHANDLER完成如下任务:
* 读取从snmptrapd传递过来的trap
* 将trap写到/var/spool/snmptt目录中的一个唯一文件
* 退出
运行在daemon模式的SNMPTT完成如下任务:
* 启动时,载入包含trap定义的配置文件
* 从spool目录读取trap
* 从trap中查找匹配
* 日志记录,执行EXEC声明等
* 休眠5秒钟
* loops back up to ‘从spool目录读取trap’.
注:使用SNMPTTHANDLER和SNMPTT在daemon模式下,可以轻松的处理大量的traps。在命令行使用--daemon参数或者在snmptt.ini文件中设置daemon变量,可以使SNMPTT运行在daemon模式下。通过设置snmptt.ini文件中的use_trap_time变量为1(默认的),日志中的日期和时间为trap被传入spool文件的时间,如果变量设置为0,日志中的日期和时间为SNMPTT处理后的时间。
3.SNMPTT.CONF 配置文件Notes
当在配置文件中对相同的trap存在多个定义时,如下的规则被应用:
A match occurs when:
* 接收到的trap的OID匹配配置文件中定义的OID
* AND(当主机名匹配NODES中定义的主机名,或者没有NODES定义)
* AND(MATCH部分匹配为true ,或者没有MATCH条目)
如果在snmptt.ini文件中设置multiple_event为1:
* 一个trap匹配配置文件中的多个定义,则被处理多次
* 如果所有的精确匹配都符合,那么通配符匹配将不执行
* 如果一个精确匹配不存在,通配符匹配被执行,假如(主机名匹配NODES中定义的主机或者没有NODES定义)和(MATCH部分匹配为真或者没有MATCH定义)
如果snmptt.ini文件中设置multiple_event 为0:
* trap匹配到的第一个定义被处理
* 如果一个精确匹配存在,通配符匹配将不执行
* 如果一个精确匹配不存在,通配符匹配被执行,假如主机名匹配NODES中定义的主机或者没有NODES定义)和(MATCH部分匹配为真或者没有MATCH定义)
4. 域名解析/DNS
如果配置选项 dns_enable设置为0 (禁止),那么AGENT的主机名在变量$A , NODES匹配,数据库中的hostname列,中不可用。仅有一种例外,主机IP地址同agent IP地址相同,snmptrapd配了解析主机名。在这种情况下,主机名将会被agent名字替代。
如果配置选项dns_enable设置为1(允许),那么主机名和agent名都会通过dns解析。NODES中的条目将会在匹配前被转换为IP地址。
主机名可能为FQDN(Fully Qualified Domain Name),在/etc/hosts或者%systemroot%\system32\drivers\etc\hosts下添加条目,可能会导致短名被 使用。你可以通过strip_domain/strip_domain_list选项设置去掉FQND名字中的域名。
七、 同Nagios的集成
1. Nagios Passive Servie Checks
被动检查允许Nagios处理由外部程序提交的检查结果。使用SNMPTT的EXEC声明,接收到的trap可以通过Nagios的submit_check_result脚本船体给Nagios。一旦Nagios收到,trap将会被记录日志,发邮件等。
所有的主机使用一个SNMPTT服务定义,你在Nagios console上只能看到收到的最后一个trap。每一个trap都被记录日志,发邮件等,但是只能在console上看到最后一个trap的告警或critical状态。
2. Nagios Volatile Services
收到SNMPTT转换的trap,当为这个定义了服务,服务必须定义为volatile。当一个服务的状态从OK变为non-OK,则联系人被通知。一般的Nagios的一个服务,没有定义volatile,意味着,另一个服务检查被执行了,状态仍然为non-OK, 那么联系人不会被通知。因为这里为SNMP traps只定义一个服务条目,我们需要确保每次收到trap,我们都被通知。
3. 创建Nagios服务条目
如下是一个Nagios服务条目
define service{
host_name 127.0.0.1
service_description SNMP TRAP
check_command check-host-alive
is_volatile 1
check_period 24x7
max_check_attempts 1
normal_check_interval 1
retry_check_interval 1
active_checks_enabled 0
passive_checks_enabled 1
check_freshness 0
event_handler_enabled 1
flap_detection_enabled 0
process_perf_data 1
notification_period 24x7
notification_options w,u,c,r
notifications_enabled 1
notification_interval 31536000
contact_groups somegroup
}
4. Creating the SNMPTT EXEC statement
Nagios 应该包含了脚本submit_check_result在contrib/eventhandlers目录。在libexec下(/usr/local /nagios/libexec)创建一个eventhandlers目录,拷贝submit_check_result脚本到这个目录中,并加上可执行 权限(chmod a+x submit_check_result)
submit_check_result脚本需要如下参数:
host_name
svc_description
return_code
plugin_output
返会代码如下:0=OK, 1=WARNING, 2=CRITICAL, -1=UNKNOWN.
在snmptt.conf文件中,为每一个EVENT创建一条EXEC声明:
EXEC /usr/local/nagios/libexec/eventhandlers/submit_check_result $r TRAP 1 "xxxxxx"
“xxxxxx”是trap的文本,可以使用FORMAT声明,例如:
EXEC /usr/local/nagios/libexec/eventhandlers/submit_check_result $r TRAP 1 "Drive $1 in bay $2 has failed"
5. 在Nagios中清除收到的traps
使用上面的配置,一旦收到某主机的trap,它将保持WARNING状态。为了从Nagios console中清除trap,打开TRAP服务,单击’Schedule an immediate check of this service’. 这将导致定义的服务检查被运行(check-host-alive),然后状态变为OK,warning被清除。
另外一种选择是使用check-host-alive创建一条新的命令,叫做reset-trap:
#!/bin/sh
/bin/echo "OK: No recent traps received"
exit 0
在你的 *commands.cfg中添加这条命令的定义。
Nagios2.0引入了服务结果和主机结果的freshness 检查。服务的freshness检查可以用来自动重置trap通知的告警为OK状态,这个需要在服务定义中添加check_freshness和 freshness_threshold。推荐使用freshness检查,因为当服务状态改变时,normal_check_interval所引起的 下一次检查时间没有变。对于freshness检查,检查命令会在最后一次被动检查后的freshness_threshold秒后运行
要使freshness检查启动,需要normal_check_interval为1,valid check_period 设置为24x7,并添加如下的定义:
check_freshness 1 Enable freshness checking
freshness_threshold 86400 Reset trap alert every 24 hours.