搜档网
当前位置:搜档网 › 基于IP地址聚类的网络异常流量分析

基于IP地址聚类的网络异常流量分析

基于IP 地址聚类的网络异常流量分析

Ξ

于寒冰,王继龙

(清华信息科学与技术国家实验室(筹),清华大学信息网络工程研究中心,北京100084)

摘 要: 异常流量在目的地址与出现时间上的分布均与正常流量有很大区别。文中对校园网的出口流量进行分析实验,将其Net Flow 记录按校外I P 地址的前16位聚类,得到的部分网段在出入流量中的出现频度有明显特点。分析2种典型网段,研究由此发现校园网内的异常流量源的方法,并对2种异常流量源的区别进行了分析。此方法与常用的异常检测方法相比,所需处理的数据量大为减少,大大提高了检测效率。关键词: Net Flow ;异常检测;流量分析

中图法分类号: TP393 文献标识码: A 文章编号: 167225174(2008)05Ⅱ2187204

随着Int ernet 的发展,网络流量飞速增长,互联网已成为不可或缺的信息载体。与此同时,各种异常流量也伴随着网络攻击行为频繁出现。这些异常流量一方面威胁网络主机的安全,造成社会损失,另一方面加重了网络设备的负担,浪费网络资源。同时,这些流量作为夹杂在正常流量中的巨大噪声,也会干扰对正常网络流量规律的研究。因此,无论从网络运行还是研究的角度,都有必要对异常流量进行控制。

1 使用Net Flow 记录检测异常流量

Net Flow 是Cisc o 公司提出的网络数据包交换技术,该技术首先被用于网络设备对数据交换进行加速,并可同步实现对高速转发的IP 数据流(Flow)进行测量和统计。

网络流(Net work Flow )通常被定义为给定源节点和目的节点之间传输的单向数据包序列。Flow 由7个关键域标定,包括源IP 地址,目的IP 地址,源端口号,目的端口号,Layer 3协议类型,Tos (服务类型)和输入逻辑接口。当1条流空闲过长时间,持续过长时间,cache 变满或TCP 连接中出现FIN 或RST 标志时,流即被视为过期,Net Flow 记录被输出到流采集器。输出的信息除了上述的七元组外,根据版本的不同,还可能包括起始时间,包数,字节数等[1]。

因此,在Net Flow 的记录中包含了丰富的传输层和网络层信息,如实地记录了网络的数据交换状态,是检测异常流量的重要工具。

目前通过Net Flow 来检测异常流量,常用的方法是根据典型异常流量的特征进行匹配,例如在Net Flow 记录中发现大量的来自同一地址的TC P Ping 包意味

着可能存在Ping Sweep ,出现过多的有S Y N 标志位的TCP 分组,意味着可能存在S Y N Flood 攻击[2],许多蠕虫病毒扫描网络时产生的数据包也具有典型特征。这种方法可以比较精准的实时定位网络中的异常流量,但只能检测出已经被发现了的异常流量类型,而且需要对每条Net Flow 的源地址、目的地址、端口号、字节数等信息进行分析记录,当某种病毒大规模泛滥时能够体现出较高的效率,而在日常监测中,所检查的正常记录远多于异常流量记录,略显效率低下。针对这一问题,有人提出在尽量保证准确率的前提下,采用更复杂的算法提高流的采样率,以减少运算开销[3]。此外,还有针对主机的网络行为进行测量的方法,通过发现某一个或多个协议的流量发生比较明显的突变,对流量突变的分布、频度进行分析,来检测网络中可能存在的攻击行为[4]。这种方法需要对正常网络流量的协议分布情况进行建模,而且前提是正常流量按协议的分布一直处于相对稳定的状态,不能出现大的波动,否则会造成误判。

本文提出了1种新的、基于外部IP 地址聚类的异常流量分析方法,并在清华大学校园网出口流量中进行了实验。实验证明,此方法仅根据流量中源地址和目的地址的分布就可以有效地识别出校园网中存在的异常流量源,避免了对每条流的分析,提高了检测效率,从而很好地起到了净化流量的作用。

2 基于地址聚类的分析实验

我们首先根据异常流量的特点提出2个基本假设:第一,异常流量大多是以大范围扫描网络地址的形式出现,因此其目的地址数量要远多于正常流量的目

Ξ收稿日期22;修订日期22作者简介于寒冰(2),男,硕士生。2y 3@ 

第38卷 增刊 2008年10月 

中国海洋大学学报

PER IODICAL OF OCEAN UN IV ER SIT Y OF C HINA

38(Sup.):187~190

Oct.,2008

:20080820:20080910

:1987E mail :https://www.sodocs.net/doc/e812561251.html,

的地址,可能存在这样的B类地址段,除了异常流量之外,几乎没有数据包从校园网发往其中的IP;第二,因为异常流量存在持续扫描行为,数据流的出现频度可能远高于正常流量,并导致目的地址所在网段长期有数据包流向,明显区别于普通网段。如果以上假设成立的话,只需将流量记录按其中校外地址的前16位进行聚类,根据校园网与各个B类地址段的互联情况,就可以检测到可能存在的异常流量源。需要说明的是,此处所说的“B类地址段”,是对前16位相同的IP地址集合的统称,并不是严格的B类地址的概念。

基于以上假设,我们对清华大学校园网出口流量的Net Flow数据进行了统计分析。实验采用的是2008年6月1日的Net Flow数据,记录每5min输出1次,即全天被分成288个统计时段。将流记录按其中校外地址所属B类地址段进行聚类,得到每个B类地址段在出流量和入流量中分别出现的统计时段数,如表1所示。

表1 出入流量中校外B网段出现时段分布

Table1 Time distribution of remote B b locks in t he incoming and out coming flows

输入/输出In/Out0(0,10](10,70](70,140](140,210](210,280](280,288] 030164137489934852215 (0,10]4401676142269886 (10,70]8571142710163434212 (70,140]1075030780468623 (140,210]1037471951544218 (210,280]10217428623398 (280,288]41135525617

从表1中数据可见,在1天之中,校园网共向34813个B网段发出了数据包,而其中的14831个B 网段没有数据包返回(以下称之为单输出B段),而且单输出B段中有92.7%只在10个或更少的区间内出现,即出现时间只有几十分钟或更短。此外,有5617个B段在出、入流量中出现时段数均>280(以下称之为恒互联B段),即几乎24h均有数据包的出入。这与之前的两点假设相吻合,以下将具体分析其与异常流量的关系。

单输出B段分析 为了进一步判别单输出B段的大量出现是由正常主机的偶然操作造成的还是由异常流量源的恶意扫描造成的,对与这些B段互联的校内IP各自覆盖的单输出B段数目进行了统计,将IP按覆盖B 段数量降序排列,序号作为IP标识,得到图1(只画出了覆盖B段超过10个的IP的情况)。在1天之中共有2140个校内IP向单输出B段发送了数据包,但其中近80%的IP只对其中的1个B段有发包记录,基本可以看做随机事件,覆盖10个以上单输出B段的只有图1中的不到200个IP。

图1中前12个IP所覆盖的单输出B段均在200个以上,通过对每个IP的Net Flow记录逐一检查,除了其中1台主机确认为DNS服务器外,其他11个IP 地址均存在向大量随机目的I发送固定大小数据包的现象,基本可以认定为感染了病毒的异常流量源。而排在其后的I虽然覆盖的B段数多于普通I,但相关的Net Flow记录普遍少于200条,这在单个IP一天的流量中几乎可以忽略不计,因此不足以作为异常流量源的判据

图1 覆盖单输出B段超过10个的IP分布

Fig.1 Distribution of scrlp’s covering more

tha n single2out B blocks

经分析,异常流量源存在有发送无返回的情况,是由于此类主机盲目寻找大量的IP地址作为目标主机,连接请求成功的概率极低,只有当目标IP处于活动中、其主机确实存在相关漏洞且扫描流量没有被防火墙拦截时才会返回应答。

当从N F记录中滤除以上个I的相关记录后,重新聚类统计每个B类地址段在出入流量中出现的频度,发现B段分布发生了显著变化,其中单输出

8

8

1中 国 海 洋 大 学 学 报2008年

P

P P

et low11P

B段的数量由14831减少到4640,校园网1天之内连

通的B网段数量从35372降到25167,下降了28.8%,可见上述方法所检测出的异常流量源数量虽少,对校园网互联IP的分布与数量的影响却非常大。

恒互联B段分析 在过滤掉上述11个异常流量源的记录后,恒互联B段的数量只由5617降到5540,仅下降了1.4%,但经对恒互联B段的采样分析,此类B段也与异常流量有很大关联。

在恒互联B段中随机抽取了200个进行统计,结果显示,有96.0%的恒互联B段存在着与之持续连接超过120个时段(10h)的校内IP,其中170个B段的单个IP连接时间超过144个时段(12h)。几个典型恒互联B段的统计结果见表2,其中涉及的IP地址都用标号代替。

表2 部分恒互联B段统计数据

Table2 Prepenty of several per manently counting/16b locks

Calss B1Class B2Cla ss B3

连接最久校内IP IP1IP2IP1连接时段177194134

入流量中校外IP3951026316

出流量中校外IP7481213626

表2中B段2的连接最久IP的连接时段长于B 段1的,但出流量与入流量中校内IP的数量差别并不显著,这与单输出B段的情况迥异。经过检查相关IP 的Net Flow记录,确认IP1,IP2均为异常流量源。经逐一核对,与至少2个抽样B段的连接时段超过120的IP共有24个,其中23个被确认为异常流量源。

此类异常流量源没有被上一部分识别出来,说明这些IP所覆盖的单输出B段数量并不多。例如,IP1发往单输出B段的流只有237条记录,覆盖113个B 段,IP2的流只有55条记录,仅覆盖41个B段,都远没有达到单输出B段中异常流量源的阈值。

从目标地址的分布上,此类异常流量源也与上一部分有明显不同。以IP1为例,其1天之中发送的数据包中有38.8%发往恒互联B段,只有0.8%发往单输出B段,而通过单输出B段发现的1个异常流量源在53.8%的数据包发往恒互联B段外(过滤之前),有23.1%的数据包发往单输出B段。通过恒互联B段检测到的异常流量源表现出明显的目标选择性,说明其在扫描网络时不是随机扫描,而是采用了成功率比较高的方法,如基于hitlist的扫描或被动式扫描等。

以上分析表明使用恒互联B段检测异常流量是对单输出B段的重要补充,至此关于异常流量的个假设都得到了验证,说明通过地址聚类进行异常检测的方法是行之有效的。3 对上述方法的讨论

本论文对Net Flow记录根据校外地址所属的B网段进行了聚类,这种聚类之所以能突显出异常流量的影响,主要是由于与异常流量对网络地址的大范围扫描相比,校园网正常流量的目的地址相对集中,而且这种集中能够在B类地址的尺度上体现出来,如11个异常流量源所覆盖的B段数目就超出其他全部流量近一半。如果两者所覆盖的B段数相当,此方法就无法奏效了。选择什么样的聚类粒度,即针对IP地址的前多少位进行聚类能够达到运算开销与检测效果的最优化,也是值得进一步研究的问题。但无论聚类大小,这种方法的效率都要明显高于以单个流作为研究对象的检测方法。

本文的方法除了用于园区网络维护之外,还可以用来对新病毒的大规模爆发进行预警。因为无论网络攻击者的手段如何变化,在将病毒大规模传播之前,除非攻击者对目标网络十分熟悉,否则都会存在利用被控制的远程主机大范围扫描网络的阶段[5]。而本文所研究的检测方法正是针对异常流量的扫描行为,因此可以将此阶段及时发现。如果能在病毒爆发之前做出预警并采取相应措施,将大大降低可能带来的危害。

此外,对Net Flow记录中异常流量的识别也是进行用户网络行为分析时必不可少的预处理步骤。排除异常流量的干扰,获取真实用户访问网络时的目的地址分布、频度以及带宽占用情况,是制定路由策略、分配带宽资源的重要依据。

4 结语

异常流量具有目的地址广、存在时间长的特点,因此其在IP地址与出现时间上的分布与正常流量有很大差异。但如果对每个源地址的流量分布进行统计,运算代价过大。本文通过在校园网出口上的分析实验,证明异常流量的这两个特点可以通过IP地址聚类,在更大的尺度上表现出来,从而大大缩小了需要检测的数据量。根据从目的地址分布、连接持续时间2个角度对经过地址聚类的Net Flow记录的分析,发现了2种不同的异常流量源的典型特征,设计出各自的检测方法,并在实际网络流量中进行了验证。如何选择合适的聚类粒度是需要继续研究的问题。

参考文献:

[] N F S S G[B OL]

[] 曾嘉,金跃辉,叶小卫基于N F的网络异常流量监测[]微计算机应用,,23

[3] G,S I f2f

9

8

1

增刊于寒冰,等:基于IP地址聚类的网络异常流量分析

21Cisco.et low ervic es olutions uide E/.2001.

2.et low J.

20077:70971.

A ndrouli da ki s Papa va ssiliou.nte l li gent low ba sed sa mpli ng or

effective net work ano m aly detection [C ].Washi ngto n DC :G lobal Telec o mmunications C onference 2007,2007.

[4] 杨嵘,张国清,韦卫,等.基于Net Fl o w 流量分析的网络攻击行为

发现[J ].计算机工程,2005,13:1372139.

[5] Ge o rge Bakos ,Vincent Berk H.Earl y detection of int ernet worm ac 2

ti vit y by m eteri ng ICM P destinat i o n unreachable m essages [J ].Pro 2ceedi ngs of t he SPIE Aerosens e ,2002,12(7):18233.

Abnormal Network Traffic Analysis Based on IP Addre ss Clustering

YU Han 2Bi ng ,WAN GJi 2Long

(Tsinghua National La b oratory for Informati on Science and Techn ology (TNList ),Network Research Center ,Ts inghua Univer s ity ,Beijing 100084,China)

Abstract : Abnormal t raffic appears very different f rom normal traffic on the dist ribut ion of bot h destination IP address and time.Thi s paper clusters t he Netflow records of the t raffic via t he campus network based on t he higher 16bit sof t he outer IP address ,finding t hat some clusters appear unusual on frequency of t he emergence.

This paper analyzes t w o kinds of t ypical cluster ,proposes a method to detect anomaly sources i nsi des t he cam 2pus network usi ng t he cl usters ,and finds t he differencesof t wo kindsof anomaly https://www.sodocs.net/doc/e812561251.html,paring wit h com 2mon anomaly detection met hods ,t his met hod has fewer amount s of dat a required for deali ng wit h ,and t here 2fore higher efficiency.K e y words : Net Flow ;anomaly det ection ;network t raffic analysi s

责任编辑 徐 环

91中 国 海 洋 大 学 学 报2008年

相关主题