第9卷第2期 太原师范学院学报(自然科学版) Vo!・9 No・2
JOURNAL OF TAIYUAN NORMAI UNIVERSITY(Natural Science Edition) Jun.2010 2010年6月
基于贝叶斯模型的邮件过滤系统
闫 斐
(山西煤炭管理干部学院,山西太原030006)
(摘要) 垃圾邮件过滤技术主要有三个大类,它们分别运用不同的方法和途径来判定垃圾邮
件:基于lP地址;基于规则;基于邮件内容.基于内容的垃圾邮件过滤是一种常用的反垃圾邮件技
术,它以邮件在内容方面的特点来鉴别邮件,在技术上利用文本分类的方法来实现.文章设计了基
于内容的,采用贝叶斯方法进行文本分类的垃圾邮件处理系统.
(关键词] 垃圾邮件;过滤技术;贝叶斯方法;特征词
(文章编号] 1672—2027(2010)02-0063—05 [中图分类号]TP391 [文献标识码] A
1垃圾邮件的定义
“垃圾邮件”[】 多指未经请求而发送的电子邮件,也可以是发送给与信件主题不相关的新闻组或者列表
服务器的同一信件的重复邮件.
国内外的技术专家和反垃圾邮件组织对“垃圾邮件”的定义大致是:批量发送的未征得收信人同意的电
子邮件.这些电子邮件虽然每封的信息量不一定很大,但是邮件内容不是大多数用户需要甚至是令大多数用
户讨厌的.
目前研究人员针对垃圾邮件的对策,从技术层面上讲,主要包括三种 ]:基于IP的过滤;基于内容的过
滤;基于行为的过滤.
2基于贝叶斯方法的垃圾邮件过滤原理
贝叶斯方法是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行
修正,最后再利用期望值和修正概率做出最优决策.
贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:
1)已知类条件概率密度参数表达式和先验概率.
2)利用贝叶斯公式转换成后验概率.
3)根据后验概率大小进行决策分类.
贝叶斯统计方法是一种常用的文本分类方法,而垃圾邮件的过滤在本质上也属于文本分类的范畴,它的
特殊之处在于对象的归属类别只有两个,垃圾邮件和正常邮件,所以垃圾邮件过滤就是二元化的文本分类问
题.贝叶斯方法的最终目标就是要计算邮件属于垃圾邮件的概率,也就是P(M一1ID)(M表示邮件的类别,
M一1表示垃圾邮件,M=0表示正常邮件),而依据贝叶斯公式:
PfM』D): 望!
一 一 P(D)
此问题又可归结于先验概率P(M一1)和类条件概率P(DlM一1)的计算,先验概率P(M=1)由训练过
程获得,类条件概率P(DIM=1)的计算是关键问题.依据朴素贝叶斯原理,文档D由若干个相互独立的特
征项d (i一1,2,…, )生成,所以P(DIM一1)可以由P(d IM一1)运算得到.P(d。JM一1)由训练过程得到,
在特征词库中已有存储.如前文所述,用P(d lM一1)来计算P(DlM一1)的方法有两种,多变量贝努利事件
收稿日期:2010—01—29
作者简介:闫斐(1974一),女,山西吉县人,硕士,山西煤炭管理干部学院计算机系讲师,主要从事网络信息处理和中文信息分类
64 太原师范学院学报(自然科学版) 第9卷
模型和多项式事件模型.
2.1 多变量贝努利事件模型
P(D I M一1)一1-[(EP(d I M一1)+(1一E )(1一P(d I M一0))
P(D I M一0)一II(E P(d l M—o)+(1一E )(1一P(d I M一0))
依据全概率公式又有:
P(D)一P(M一1)P(DlM一1)+P(M:==0)P(D JM一0).
依据训练所得的特征词库,就可以计算出待处理邮件属于垃圾邮件类的概率,参照预定参数,即可作出
最后判断.
2.2多项式事件模型
P M一 lD)一丽F丽 一
1
1+ 三 !旦』 三
。P(M::=1)P(D I M===1)
P(D I M一0) -6-P(di I M一0)
P(D l M一1) P(di『M一1)“
同2.1方法一样,P(M一1),P(M一0),P(d M一1),P( lM一0)已由训练过程获得,特征词d 在待
处理邮件D中出现的频次H 由预处理过程获得,可算出待处理邮件在垃圾邮件类中的概率.
3过滤模块的设计
系统的运行需首先经过训练过程来构建特征词库和分类器,在此基础上对待处理邮件进行分类和过滤.
3.1过滤器的构建
过滤器 的构建过程也就是使用邮件样本集对系统进行训练的过程,所以第一步就是要选择数量、内容
适当的邮件样本集.
准备好邮件样本集后,就开始垃圾邮件过滤系统的训练过程,具体步骤如下:
1)计算垃圾邮件和正常邮件在tJlI练样本集中的概率,计算公式如下:
P cM一“ 一 训练集中邮件的总数 萎 吾 ,PcM一。~ 一 训练集中邮件的总数 紊薰蓦
2)对训练样本集中的邮件进行中文分词处理,并统计每个词条在两类邮件中的出现频次.
3)计算每个词的几率比,抽取几率比较高的300个词构建特征词库.
4)统计每个特征词的类条件概率P(d {M一1)和P(d IM一0),将结果存人特征词库.这个步骤的统计
方法有两种:
多变量贝努利事件模型的统计公式:
—M 一
一M 一
多项式事件模型的统计公式:
M 一
-M 一 十止r吊郾仟灭L篙 tJ刖待l仳例 次双
本过程的具体步骤如图1所示.
3.2邮件的分类过程
第2期 闫 斐:基于贝叶斯模型的邮件过滤系统 65
3.2.1对传统分类方法的改进
读入邮件训练样本集
当前的垃圾邮件过滤技术[6 存在的主要问题之一就
是垃圾邮件的“误判断”,即把正常邮件错误地判断为垃
圾邮件并进行删除.这是用户最不愿意看到的结果,对于
计算
大多数用户来说,宁愿容忍垃圾邮件过滤的不彻底,也无
正常邮件类概率
法容忍对正常邮件的误删除.如果为了避免这种“误判
垃圾邮件类概率
断”而大幅改变过滤系统的阈值,又会造成对垃圾邮件的
“误承认”,即错误地把垃圾邮件识别为正常邮件而放行,
这也会影响系统的过滤效果.面对这个两难的问题,本文
对传统的基于贝叶斯的垃圾邮件过滤方法作一定的改
进,即把邮件的类别由原来的两种增加为三种:正常邮
件、垃圾邮件、疑似垃圾邮件.
传统的垃圾过滤系统中设有一个阈值,判定垃圾邮
件概率值高于此阈值的邮件属于垃圾邮件,否则为正常
是
邮件.本文设定了两个阈值“1和 2,把P(M:1ID)高于
计算词条几率比
2的邮件归类为垃圾邮件,把P(M一1 lD)低于“1的归
构建特征词库
类为正常邮件,把P(M一1 JD)介于“l和 2之间的归类
为疑似垃圾邮件.系统运行过程中,两个阈值还可以调
计算特征词的类条件概率
整,当“误判断”率太高时,适当提高M2的值,当“误承认”
存入特征词库
率太高时,适当降低“1的值.
3.2.2邮件分类的步骤
图1分类器训练流程图
Fig.1 The thing of classify train a flow sheet
1)读取待处理邮件并分词,参照系统特征词库提取
特征词.
2)依据每个特征词的类条件概率,使用朴素贝叶斯方法计算邮件属于垃
圾邮件的概率.
3)以两个阈值 1和“2为基准,对邮件进行归类.阈值的设置直接影响
到系统的分类结果,至关重要.本文预先设定两个阈值,根据分类效果反复调
试,最终设定 l为0.5,u2为0.8.P(M一1 fD)<一O.5者为正常邮件;P(M
一
1ID)>O.8者为垃圾邮件;0.5<P(M一1 1 D)<一0.8者为疑似垃圾邮
件.
4)在用户对疑似垃圾邮件做出识别后,用已分类邮件进行反馈学习,也
就是对分类器重新训练,更新特征词库.
邮件分类的步骤如图2所示.
本系统最终将邮件分为三类:正常邮件、垃圾邮件、疑似垃圾邮件.对于
疑似垃圾邮件系统不作处理,用户可根据自身需要对其归类并做出相应处
理.这也是本系统的特色所在.系统的自动化程度虽略有所降低,但垃圾邮件
过滤中的“误判断”和“误承认”现象大为减少,有力保证了用户的正常邮件不
图2邮件分类工作流程
受损毁.
Fig.2 Short mail
3.2.3系统的增量式反馈学习
runing procedures
在垃圾邮件过滤技术不断发展的同时,垃圾邮件的发布者也在研究反垃圾邮件技术,变换花招逃避过
滤,网络上的新词语更是层出不穷,所以垃圾邮件过滤器必须及时更新,这样才能保证良好的过滤效果.而过
66 太原师范学院学报(自然科学版) 第9卷
特征的变化而随时调整.而且,由于疑似垃圾邮件是由用户人工识别的,所以反馈学习的邮件样本集体现了
用户的个性化需求,经过增量式学习的分类器越来越迎合用户的兴趣和倾向,实现了个性化垃圾邮件过滤.
系统反馈学习的具体步骤如图3所示.
3.3系统的测评
3.3.1测评目的
读入学习样本集
在系统设计过程中,特征词提取的数量、训练样本集中邮件的数量、阈值
』
更新先验概率
的设定都需要经过反复测试和调整来确定.此外朴素贝叶斯统计方法有两个
模型可供选择,也需要通过系统测试来决定取舍.
3.3.2评价指标
由于垃圾邮件过滤本质上是文本分类问题,所以本文采用文本分类的评
中文分词
价体系来对系统进行测评.假设系统对H封邮件进行分类,得到的结果如表
1所示.
表1 系统分类结果表
Table 1 System classification
』
重新提取特征词
计算类条件概率
』
更新特征词库
图3反馈学习工作流程
Fig.3 Learning feedback
如若对以上分类行为进行评价,常用的指标有以下几种:
3.3.2.1召回率(Recal1)
R一
runing procedurse
对于全部垃圾邮件,部分能被系统识别,而部分不能被识别,召回率反映的就是系统能够识别的垃圾邮
件占垃圾邮件总数的比例,所以它考察的是系统识别垃圾邮件的能力.
3.3.2.2正确率(Precision)
P一 M+N
系统检出的垃圾邮件中,有部分是正常邮件被“误判断”.正确率就是考察被检出的垃圾邮件中有多大比
例是真正的垃圾邮件,正确率越高,被“误判断”的就越少.
3.3.2.3精确率(Accuracy)
Accur=M
]+rT (1)
由(1)式可知,精确率考察的是邮件在多大比例上被正确归类.
3.3.2.4误判率(Error Rate)
Err=== N+
S
广
:卜A删r (2)
由(2)式可知,误判率考察的是邮件在多大比例上被错误归类.
3.3.2.5虚报率(Fallout)
。“f一 ×lOO%
虚报率考察的是正常邮件在多大比例上被错判为垃圾邮件.
3.3.2.6漏报率(Miss Rate)
Mi sR口£P一丽S×100%一1一Recall
漏报率考察的是垃圾邮件在多大比例上被错判而漏网.
由测试结果可见,两种事件模型对正确率的影响不大,但是对“召回率”的影响却很显著.由于多变量贝
努利事件模型只考虑特征词是否出现,而不考虑它出现的次数,从而低估了在某类文本中多次出现的特征词
第2期 闫 斐:基于贝叶斯模型的邮件过滤系统 67
对分类的参考价值.而多项式事件模型以特征词出现的频次来进行统计,统计方法更加科学合理,分类效果
也就更好.因此最终选用多项式事件模型进行统计.
4 结束语
本文分别运用朴素贝叶斯算法的两种事件模型进行文本分类,经过测试,选择效果较好的多项式事件模
型来进行概率统计.使用增量式学习方法,实现了系统的反馈学习功能.通过不断的自学习,系统可以根据垃
圾邮件的变化和用户的需求及时进行调整.本文设计并实现了一个基于内容的垃圾邮件过滤系统,在中文分
词和阈值设定等方面做了一些改进和创新,系统对垃圾邮件识别率较高,“误判断”和“误承认”现象较少,过
滤效果良好.
参考文献:
[1]龙昱碹.反垃圾邮件前沿技术分析及未来展望口].计算机安全,2007(11):11-16
E23蒋秋香,叶苗,麦范金.垃圾邮件过滤技术的发展与现状EJ3.电脑知识与技术,2007(21):37—43
E33冯玉芬,英锋.电子邮件安全问题分析与对策[J].网络安全技术与应用,2007(12):31—36
E4]秦敬,陈笑容,江唯家.文本分类中的特征值提取方法[J].计算机应用,2005(2):113—115
雷.基于自学习“K近邻”的垃圾邮件过滤方法口].计算机应用,2005(12):147—150 E5]陈志平,王
[63刘明传,彭常生.基于贝叶斯概率统计的垃圾邮件过滤方法研究[J].重庆邮电学院学报(自然科学报),2005(10):11-13
E7]赵伟,戴新雨,尹春燕.统计与规则相结合的中文分词技术研究[J].计算机应用研究,2006(3):46—49
Design of Email Filtering System Based on Bayesian Model
Yan Fei
(Computer Science Department,Shanxi Coal Mining Administrators College,Taiyuan 030006,China)
E Abstract] Spam filtering technologies can be divided into three categories:IP address
based,rule-based and content based,which use respective methods and ways to detect j unk
Emails.The content based spam filtering is a common anti-spam technology.It makes verifica—
tion according to the features of E—mail's content.This is a practical and effective way of filtering,
which can be achieved technically through text categorization,because of the common ground ex-
isting in j unk mails"contents.A series of experiments show that Bayesian Algorithm is effective
in text classification in content based spam filtering system.
(Key words3 j unk e-mail;filtering technology;Bayesian algorithm;text feature
【责任编辑:王映苗】
本文发布于:2023-11-18 16:42:51,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/88/32513.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:基于贝叶斯模型的邮件过滤系统.doc
本文 PDF 下载地址:基于贝叶斯模型的邮件过滤系统.pdf
| 留言与评论(共有 0 条评论) |