搜档网
当前位置:搜档网 › 基于AdaCostBoost算法的网络钓鱼检测

基于AdaCostBoost算法的网络钓鱼检测

2015 年 第24卷 第 9 期 https://www.sodocs.net/doc/161253708.html, 计 算 机 系 统 应 用

Software Technique ·Algorithm 软件技术·算法 129

基于AdaCostBoost 算法的网络钓鱼检测①

曾传璜, 李思强, 张小红

(江西理工大学 信息工程学院, 赣州 341000)

摘 要: 针对日益严重的网络钓鱼攻击, 提出机器学习的方法进行钓鱼网站的检测和判断. 首先, 根据URL 提取敏感特征, 然后, 采用AdaBoost 算法进行训练出分类器, 再用训练好的分类器对未知URL 检测识别. 最后, 针对非平衡代价问题, 采用了改进后的AdaBoost 算法--AdaCostBoost, 加入代价因子的计算. 实验结果表明, 文中提出的网络钓鱼检测方法, 具有较优的检测性能.

关键词: 网络钓鱼; 敏感特征; AdaCostBoost; 分类器; 代价因子

Phishing Detection System Based on AdaCostBoost Algorithm

ZENG Chuan-Huang, LI Si-Qiang, ZHANG Xiao-Hong

(Department of Information Engineering, Jiangxi University of Technology, Ganzhou 341000, China)

Abstract : For increasing serious phishing attacks, machine-learning method is proposed to detect phishing webs. Firstly, sensitive features are extracted from the URL, then, using AdaBoost algorithm to get the trained classifier, and then the classifier is used to detect unknown URLs. Finally, considering of non-equilibrium problems of AdaBoost, the paper puts forward the improved learning algorithm called AdaCostBoost, which contains computation of cost factors. According to the experiment result, the proposed phishing detection method has better detection performance. Key words : phishing; sensitive features; adacostboost; classifier; cost factors

长期以来, 病毒和木马是网络安全中最主要的危害因素. 近几年, 随着互联网的广泛使用, 形成了一种新的攻击形式, 即“网络钓鱼”. 该现象呈现逐年上升的趋势, 凭借网络钓鱼的方式进行欺骗的行为也越来越猖獗. 根据非盈利组织Anti-Phish 工作组报告, 网络钓鱼攻击正在以每月50%的速度增加. 一般情况下, 约有5%的人会上当受骗. 据瑞星发布的最新的安全报告显示, 2013年上半年, 病毒和木马的数量、危害性都在减弱, 而钓鱼网站对互联网的安全威胁却越来越大. 钓鱼网站严重的影响了在线金融服务和电子商务的发展, 危害公众的利益. 同时, 使网络间人与人之间的互信关系变得越来越脆弱, 动摇了互联网世界的信任体系, 这将大大减弱网络交易的发展. 因此, 网络钓鱼已经成为互联网世界的一大公害[1].

虽然钓鱼网站的手段具有多样性, 但也有共通性,

即模仿正常网站进而对消费者进行欺诈. 现阶段国内外的政府、机构和研究学者们, 提出了针对网络钓鱼攻击的各种拦截措施. 下面将对全球的主流反钓鱼手段和国内外的反钓鱼机制的发展状况进行总结: 1)基于黑白名单的网络钓鱼检测体制.

一些专门的组织如PhishTank 、APWG 自发设立了钓鱼网站的黑名单库. 用户也可以提交可疑的网站由该组织判定是否为钓鱼性网站. 利用黑白名单库进行匹配检测也是最早的网络钓鱼检测方法. 2)基于网站URL 的网络钓鱼检测体制.

由于URL 的唯一性, 钓鱼网站往往模仿正规网站

URL 迷惑用户. 根据这些模仿痕迹可用于钓鱼网站的检测中[2]. J.Ma [3]等人分析可疑URL 的词汇和主机属性采用词袋模型表示特征, 获得了成千上万的特征, 运用特征匹配检测钓鱼网站.

① 基金项目:国家自然科学基金(11062002)

收稿时间:2014-12-26;收到修改稿时间:2015-02-11

相关主题