首页 > 试题

基于贝叶斯模型的邮件过滤系统

更新时间:2025-12-19 00:45:28 阅读: 评论:0

猪蹄店向政府讨餐费-大彻大悟造句


2023年11月18日发(作者:黄山四绝是什么)

第9卷第2期 (自然科学版) Vo!・9 No・2

JOURNAL OF TAIYUAN NORMAI UNIVERSITY(Natural SciencEdion) Jun.2010 2010年6月

基于贝叶斯模型的邮件过滤系统

闫 斐

(山西煤炭管理干部学院,山西太原030006)

(摘要) 垃圾邮件过滤技术主要有三个大类,它们分别运用不同的方法和途径来判定垃圾邮

件:基于lP地址;基于规则;基于邮件内容.基于内容的垃圾邮件过滤是一种常用的反垃圾邮件

术,它以邮件在内容方面的特点来鉴别邮件,在技术上利用文本分类的方法来实现.文章设计了基

于内容的,采用贝叶斯方法进行文本分类的垃圾邮件处理系统.

(关键词] 垃圾邮件;过滤技术;贝叶斯方法;特征词

(文章编号] 1672—2027(2010)02-0063—05 [中图分类号]TP391 [文献标识码]

垃圾邮件的定义

“垃圾邮件”[ 多指未经请求而发送的电子邮件,也可以是发送给与信件主题不相关的新闻组或者列表

服务器的同一信件的重复邮件.

国内外的技术专家和反垃圾邮件组织对“垃圾邮件”的定义大致是:批量发送的未征得收信人同意的电

子邮件.这些电子邮件虽然每封的信息量不一定很大,但是邮件内容不是大多数用户需要甚至是令大多数用

户讨厌的.

目前研究人员针对垃圾邮件的对策,从技术层面上讲,主要包括三种 ]:基于IP的过滤;基于内容的过

滤;基于行为的过滤.

基于贝叶斯方法的垃圾邮件过滤原理

贝叶斯方法是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行

修正,最后再利用期望值和修正概率做出最优决策.

贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:

1)已知类条件概率密度参数表达式和先验概率.

2)利用贝叶斯公式转换成后验概率.

3)根据后验概率大小进行决策分类.

贝叶斯统计方法是一种常用的文本分类方法,而垃圾邮件的过滤在本质上也属于文本分类的范畴,它的

特殊之处在于对象的归属类别只有两个,垃圾邮件和正常邮件,所以垃圾邮件过滤就是二元化的文本分类问

题.贝叶斯方法的最终目标就是要计算邮件属于垃圾邮件的概率,也就是P(M一1ID)(M表示邮件的类别,

M一1表示垃圾邮件,M=0表示正常邮件),而依据贝叶斯公式:

PfM』D): 望!

P(D)

此问题又可归结于先验概率P(M一1)和类条件概率P(DlM一1)的计算,先验概率P(M=1)由训练过

程获得,类条件概率P(DIM=1)的计算是关键问题.依据朴素贝叶斯原理,文档D由若干个相互独立的特

征项d (i一1,2,…, )生成,所以P(DIM一1)可以由P(d IM一1)运算得到.P(d。JM一1)由训练过程得到,

在特征词库中已有存储.如前文所述,用P(d lM一1)来计算P(DlM一1)的方法有两种,多变量贝努利事件

收稿日期:2010—01—29

作者简介:闫斐(1974一),女,山西吉县人,硕士,山西煤炭管理干部学院计算机系讲师,主要从事网络信息处理和中文信息分类

64 太原师范学院学报(自然科学版) 第9卷

模型和多项式事件模型.

2.1 多变量贝努利事件模型

P(D I M一1)一1[(EP(d I M一1)+(1一E )(1一P(d I M一0))

P(D I M一0)一II(E P(d l M—o)+(1一E )(1一P(d I M一0))

依据全概率公式又有:

P(D)一P(M一1)P(DlM一1)+P(M:=0)P(D M一0).

依据训练所得的特征词库,就可以计算出待处理邮件属于垃圾邮件类的概率,参照预定参数,即可作出

最后判断.

2.2多项式事件模型

P M一 lD)一丽

1+ !旦』

。P(M:=1)P(D I M==1)

P(D I M一0) 6-P(di M一0)

P(D l M一1) P(di『M一1)“

同2.1方法一样,P(M一1),P(M一0),P(d M一1),P(M一0)已由训练过程获得,特征词d 在待

处理邮件D中出现的频次H 由预处理过程获得,可算出待处理邮件在垃圾邮件类中的概率.

过滤模块的设计

系统的运行需首先经过训练过程来构建特征词库和分类器,在此基础上对待处理邮件进行分类和过滤.

3.1过滤器的构建

过滤器 的构建过程也就是使用邮件样本集对系统进行训练的过程,所以第一步就是要选择数量、内容

适当的邮件样本集.

准备好邮件样本集后,就开始垃圾邮件过滤系统的训练过程,具体步骤如下:

1)计算垃圾邮件和正常邮件在t练样本集中的概率,计算公式如下:

M一 训练集中邮件的总数 M一。 训练集中邮件的总数

2)对训练样本集中的邮件进行中文分词处理,并统计每个词条在两类邮件中的出现频次.

3)计算每个词的几率比,抽取几率比较高的300个词构建特征词库.

4)统计每个特征词的类条件概率P(d {M一1)和P(d IM一0),将结果存人特征词库.这个步骤的统计

方法有两种:

多变量贝努利事件模型的统计公式:

—M

一M

多项式事件模型的统计公式:

M 一 十止r郾仟灭L刖待l例 次双

本过程的具体步骤如图1所示.

3.2邮件的分类过程

第2期 闫 斐:基于贝叶斯模型的邮件过滤系统 65

3.2.1对传统分类方法的改进

读入邮件训练样本集

当前的垃圾邮件过滤技术[ 存在的主要问题之一就

是垃圾邮件的“误判断”,即把正常邮件错误地判断为垃

圾邮件并进行删除.这是用户最不愿意看到的结果,对于

计算

大多数用户来说,宁愿容忍垃圾邮件过滤的不彻底,也无

正常邮件类概率

法容忍对正常邮件的误删除.如果为了避免这种“误判

垃圾邮件类概率

断”而大幅改变过滤系统的阈值,又会造成对垃圾邮件的

“误承认”,即错误地把垃圾邮件识别为正常邮件而放行,

这也会影响系统的过滤效果.面对这个两难的问题,本文

对传统的基于贝叶斯的垃圾邮件过滤方法作一定的改

进,即把邮件的类别由原来的两种增加为三种:正常邮

件、垃圾邮件、疑似垃圾邮件.

传统的垃圾过滤系统中设有一个阈值,判定垃圾邮

件概率值高于此阈值的邮件属于垃圾邮件,否则为正常

邮件.本文设定了两个阈值“1和 2,把P(M:1ID)高于

计算词条几率比

2的邮件归类为垃圾邮件,把P(M一1 lD)低于“1的归

构建特征词库

类为正常邮件,把P(M一1 JD)介于“l和 2之间的归类

为疑似垃圾邮件.系统运行过程中,两个阈值还可以调

计算特征词的类条件概率

整,当“误判断”率太高时,适当提高M2的值,当“误承认”

存入特征词库

率太高时,适当降低“1的值.

3.2.2邮件分类的步骤

图1分类器训练流程图

Fig.1 The thing of classify train a flow sheet

1)读取待处理邮件并分词,参照系统特征词库提取

特征词.

2)依据每个特征词的类条件概率,使用朴素贝叶斯方法计算邮件属于垃

圾邮件的概率.

3)以两个阈值 1和“2为基准,对邮件进行归类.阈值的设置直接影响

到系统的分类结果,至关重要.本文预先设定两个阈值,根据分类效果反复调

试,最终设定 l为0.5,u2为0.8.P(M一1D)<一O.5者为正常邮件;P(M

1ID)>O.8者为垃圾邮件;0.5<P(M一1 1 D)<一0.8者为疑似垃圾邮

件.

4)在用户对疑似垃圾邮件做出识别后,用已分类邮件进行反馈学习,也

就是对分类器重新训练,更新特征词库.

邮件分类的步骤如图2所示.

本系统最终将邮件分为三类:正常邮件、垃圾邮件、疑似垃圾邮件.对于

疑似垃圾邮件系统不作处理,用户可根据自身需要对其归类并做出相应处

理.这也是本系统的特色所在.系统的自动化程度虽略有所降低,但垃圾邮件

过滤中的“误判断”和“误承认”现象大为减少,有力保证了用户的正常邮件不

图2邮件分类工作流程

受损毁.

Fig.2 Short mail

3.2.3系统的增量式反馈学习

runing procedures

在垃圾邮件过滤技术不断发展的同时,垃圾邮件的发布者也在研究反垃圾邮件技术,变换花招逃避过

滤,网络上的新词语更是层出不穷,所以垃圾邮件过滤器必须及时更新,这样才能保证良好的过滤效果.而过

66 太原师范学院学报(自然科学版) 第9卷

特征的变化而随时调整.而且,由于疑似垃圾邮件是由用户人工识别的,所以反馈学习的邮件样本集体现了

用户的个性化需求,经过增量式学习的分类器越来越迎合用户的兴趣和倾向,实现了个性化垃圾邮件过滤.

系统反馈学习的具体步骤如图3所示.

3.3系统的测评

3.3.1测评目的

读入学习样本集

在系统设计过程中,特征词提取的数量、训练样本集中邮件的数量、阈值

更新先验概率

的设定都需要经过反复测试和调整来确定.此外朴素贝叶斯统计方法有两个

模型可供选择,也需要通过系统测试来决定取舍.

3.3.2评价指标

由于垃圾邮件过滤本质上是文本分类问题,所以本文采用文本分类的评

中文分词

价体系来对系统进行测评.假设系统对H封邮件进行分类,得到的结果如表

1所示.

表1 系统分类结果表

Table 1 System classification

重新提取特征词

计算类条件概率

更新特征词库

图3反馈学习工作流程

Fig.3 Learning feedback

如若对以上分类行为进行评价,常用的指标有以下几种:

3.3.2.1召回率(Recal1)

R一

runing procedurse

对于全部垃圾邮件,部分能被系统识别,而部分不能被识别,召回率反映的就是系统能够识别的垃圾邮

件占垃圾邮件总数的比例,所以它考察的是系统识别垃圾邮件的能力.

3.3.2.2正确率(Precision)

P一 M

系统检出的垃圾邮件中,有部分是正常邮件被“误判断”.正确率就是考察被检出的垃圾邮件中有多大比

例是真正的垃圾邮件,正确率越高,被“误判断”的就越少.

3.3.2.3精确率(Accuracy)

Accur=

]+rT (1)

由(1)式可知,精确率考察的是邮件在多大比例上被正确归类.

3.3.2.4误判率(Error Rate)

Err=== N+

广

A删(2)

由(2)式可知,误判率考察的是邮件在多大比例上被错误归类.

3.3.2.5虚报率(Falout)

。“f一 ×lOO%

虚报率考察的是正常邮件在多大比例上被错判为垃圾邮件.

3.3.2.6漏报率(Miss Rate)

MiR口£P一丽S×100%一1一Recal

漏报率考察的是垃圾邮件在多大比例上被错判而漏网.

由测试结果可见,两种事件模型对正确率的影响不大,但是对“召回率”的影响却很显著.由于多变量贝

努利事件模型只考虑特征词是否出现,而不考虑它出现的次数,从而低估了在某类文本中多次出现的特征词

第2期 闫 斐:基于贝叶斯模型的邮件过滤系统 67

对分类的参考价值.而多项式事件模型以特征词出现的频次来进行统计,统计方法更加科学合理,分类效果

也就更好.因此最终选用多项式事件模型进行统计.

4 结束语

本文分别运用朴素贝叶斯算法的两种事件模型进行文本分类,经过测试,选择效果较好的多项式事件模

型来进行概率统计.使用增量式学习方法,实现了系统的反馈学习功能.通过不断的自学习,系统可以根据垃

圾邮件的变化和用户的需求及时进行调整.本文设计并实现了一个基于内容的垃圾邮件过滤系统,在中文分

词和阈值设定等方面做了一些改进和创新,系统对垃圾邮件识别率较高,“误判断”和“误承认”现象较少,过

滤效果良好.

参考文献:

[1]龙昱碹.反垃圾邮件前沿技术分析及未来展望口].计算机安全,2007(11):11-16

E23蒋秋香,叶苗,麦范金.垃圾邮件过滤技术的发展与现状EJ3.电脑知识与技术,2007(21):37—43

E33冯玉芬,英锋.电子邮件安全问题分析与对策[J].网络安全技术与应用,2007(12):31—36

E4]敬,陈笑容,江唯家.文本分类中的特征值提取方法[J].计算机应用,2005(2):113—115

雷.基于自学习“K近邻”的垃圾邮件过滤方法口].计算机应用,2005(12):147—150 E5]陈志平,王

[63刘明传,彭常生.基于贝叶斯概率统计的垃圾邮件过滤方法研究[J].重庆邮电学院学报(自然科学报),2005(10):11-13

E7]伟,戴新雨,尹春燕.统计与规则相结合的中文分词技术研究[J].计算机应用研究,2006(3):46—49

Design of Email Filtering System Based on Bayesian Model

Yan Fei

(Computer Science Department,Shanxi Coal Mining Administrators College,Taiyuan 030006,China)

Abstract] Spam ftering technologies can be divided into three categories:IP address

based,rule-based and content based,which use respective methods and ways to detect unk

Emails.The content based spam filtering is a common anti-spam technology.It makes verifica—

tion according to the features of E—mail's content.This is a practical and effective way of filtering,

which can be achieved technically through text categorization,because of the common ground ex-

sting i unk mai"contents.A series of experiments show that Bayesian Algorithm is effectve

n text classification in content based spam fiering system.

(Key words3 unk e-mail;filtering technology;Bayesian algorithm;text feature

【责任编辑:王映苗】

宪政是什么意思-花菇的禁忌


本文发布于:2023-11-18 16:42:51,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/zhishi/a/88/32513.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:基于贝叶斯模型的邮件过滤系统.doc

本文 PDF 下载地址:基于贝叶斯模型的邮件过滤系统.pdf

标签:反垃圾邮件
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 实用文体写作网旗下知识大全大全栏目是一个全百科类宝库! 优秀范文|法律文书|专利查询|