
南开大学学位论文使用授权书
根据《南开大学关于研究生学位论文收藏和利用管理办法》,我校的博士、硕士学位
获得者均须向南开大学提交本人的学位论文纸质本及相应电子版。
本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学拥有在
《著作权法》规定范围内的学位论文使用权,即:(1)学位获得者必须按规定提交学位论文
(包括纸质印刷本及电子版),学校可以采用影印、缩印或其他复制手段保存研究生学位论
文,并编入《南开大学博硕士学位论文全文数据库》;(2)为教学和科研目的,学校可以将
公开的学位论文作为资料在图书馆等场所提供校内师生阅读,在校园网上提供论文目录检
索、文摘以及论文全文浏览、下载等免费信息服务;(3)根据教育部有关规定,南开大学向
教育部指定单位提交公开的学位论文;(4)学位论文作者授权学校向中国科技信息研究所及
其万方数据电子出版社和中国学术期刊(光盘)电子出版社提交规定范围的学位论文及其电
子版并收入相应学位论文数据库,通过其相关网站对外进行信息服务。同时本人保留在其
他媒体发表论文的权利。
非公开学位论文,保密期限内不向外提交和提供服务,解密后提交和服务同公开论文。
论文电子版提交至校图书馆网站:http://202.113.20.161:8001/index.hun。
本人承诺:本人的学位论文是在南开大学学习期间创作完成的作品,并已通过论文答
辩;提交的学位论文电子版与纸质本论文的内容一致,如因不同造成不良后果由本人自负。
本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。
作者暨授权人签字:
扬撞生
2012年11月11日
南开大学研究生学位论文作者信息
论文题目
姓名杨艳生学号答辩日期2012年11月11日
基于贝叶斯算法的垃圾邮件过滤系统设计与实现
2220091495
同等学力硕士口论文类别博士口学历硕士口硕士专业学位团高校教师口
院/系/所软件学院专业软件工程
联系电话
l506963300963.tom
Email
Yangyanshen966@1
通信地址(邮编):寿光市公安局法制案审大队(262700)
备注:
南开大学学位论文原创性声明
本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所
取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包
含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所
涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本
学位论文原创性声明的法律责任由本人承担。
学位论文作者签名:2012年11月11日
扬艳生
非公开学位论文标注说明
(本页表中填写内容须打印)
根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申
请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本
说明为空白。
论文题目
申请密级
保密期限月日至20年月年
审批表编号批准日期年月日
口限制(≤2年)口秘密(≤lO年)
20
20
口机密(≤20年)
日
南开大学学位评定委员会办公室盖章(有效)
注:限制★2年(可少于2年):秘密★10年(可少于10年):机密★20年(可少于20年)
摘要
摘
要
随着互联网的迅速发展和应用普及,电子邮件的广泛应用给我们的生产和
生活带来了相当大的便利,但是垃圾邮件的出现给我们带来了相当大的烦恼,
针对垃圾邮件问题本文以贝叶斯算法为理论基础,将理论应用于工程实际,设
计和实现了基于贝叶斯算法的垃圾邮件过滤系统。
ABSTRACT
Abstract
Alongrapiddevelopmentapplication
withtheandofInternet,
although
the
wideofemailconsiderableconvenience.Butmails
applicationbringsbring
US
spam
USon
considerabletrouble.Inviewofthesiswhichbased
spam,thealgorithm
bays
as
thethe
theoretical,
appliestheoryengineeringapplication,
to
andand
designs
implementationssystem
thethebasisof
spamfiltering
on
bays
algorithm.
Spam
filteringactuallybays
problemproblems
isofemail,
theclassification
algorithm
isfilter,istheelectronic
appliedactually
toto
spamclassify
mail
through
statisticalmethods.Ontheof
base
baysspamfilteringsystem
algorithm,the
achievesbetterresultsfor
English
email.This
system
joined
the
Chineseword
segmentation
module,Design
and
realizes
theChinesefunction
mail
filtering
module,obtained
and
bettereffect.
filtering
Thisintroducesresearchthe
paper
firstlybackground,
significance
and
domestic
andinternationalresearchofthis
phenomenon
topic,
and
thenIntroduces
therelatedofwhichtechnical
knowledge
email,basic
provides
knowledge
for
designing
spamfiltering
system.Thirdly,the
thesisintroduces
the
algorithm
ofbays
algorithmpretreatment,
and
E—mail
whichtheoretical
provides
a
basisfor
designing
spam
filteringpaper
system.Finally,the
introducestheofthe
design
scheme
spam
filteringsystem
and
therealizationofthe
the
filtering
system,
and
tests
designed
filtering
systembyexperiment.
KeyMail;Bayes
Words:Spare
Algorithm;The
Chinese
Word
Segmentation;Feature
Wbrds
Extracted
II
目录
目录
第一章绪论………………………………………1
第一节课题的研究背景及意义……………………………….1
第二节国内外研究现状…………………………………….2
第三节本文的主要研究内容…………………………………5
第四节本文组织结构安排…………………………………..5
第二章电子邮件的相关技术介绍………………………7
第一节电子邮件的工作原理…………………………………7
第二节电子邮件的传输协议…………………………………8
第三节电子邮件的内容格式和编码技术………………………..9
目录
4.3.4系统分类模块设计….…………………………………..35
第四节数据库模块设计……………………………………36
第五节本章小结…………………………………………37
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试.38
第一节邮件采集模块的实现………………………………..38
第一章绪论
第一章绪论
第一节课题的研究背景及意义
随着互联网技术的迅速发展和广泛应用,电子邮件作为一种经济、方便、
快捷的通信方式也得到了快速的发展,成为互联网用户一种必备的通信工具,
是互联网技术成功应用的典范。现在电子邮件的使用已经相当普及,通过电子
邮件我们可以和地球上任何使用互联网的人进行交流沟通,而且其具有操作简
单,速度快捷,费用低廉,传递的信息量大等特点,是其他通信方式无法与之
相比的。
任何事情都有正反两个方面,电子邮件给我们带来便利的同时,其带来的负
第一章绪论
4.严重影响ISP的服务形象,降低了用户对电子邮箱的实用兴趣。
5.有些人通过发送垃圾邮件来妖言惑众,骗人钱财,甚至传播色情等内容
已经严重危害了现实社会。
因此垃圾邮件已经成为全球本互联网行业普遍关注研究的一个重要课题。
本文以贝叶斯算法为基础,对垃圾邮件过滤技术进行研究,设计垃圾邮件过滤
系统,对减少垃圾邮件的危害具有重要的意义。
第二节国内外研究现状
从垃圾邮件诞生的那一刻起,人们就一直再寻找对付垃圾邮件的有效方
法,经过不懈的努力,从多个方面提出了对付垃圾邮件的措施,目前用来对付
垃圾邮件的方法主要有三种:法律法规的制定和宣传教育,邮件通信协议的改
第一章绪论
(1)基于IP地址的过滤
在整个邮件系统的路由器、邮件传送代理、邮件投递代理、邮件用户代理
和到达用户五个层次中可以应用基于IP地址的过滤。基于IP地址的过滤主要
包括基于网络的IP地址和基于主机的工P地址两种过滤技术,现在比较容易见
到的有路由器访问控制链表技术、黑白名单过滤技术口。81和实时黑名单技术等。
路由器访问控制链表技术是指从网络层(IP)和传输层(TCP)控制对网络
资源的访问,通过控制发送垃圾邮件IP地址上网络资源的访问来将垃圾邮件过
滤掉。
现在的邮件服务器基本都具有黑白名单过滤功能,这是最早的垃圾邮件过
第一章绪论
域名的逆向解析时需要做大量的DNS查询,因此这样会耗费大量的网络资源。
根据垃圾邮件服务器的特点可以用SMTP交互行为的检测对垃圾邮件进行处
理,现在比较常见的检测方法有:无效账号的发送、对发送账号进行限制、特
殊命令的使用等n1|。
(3)基于内容的过滤技术
现在基于内容的过滤技术是垃圾邮件过滤技术的主流,主要有基于规则的
第一章绪论
第三节本文的主要研究内容
本文介绍了对电子邮件的工作原理、传输协议、内容格式和编解码方法等
电子邮件的基本技术,分析了现在垃圾邮件的基本特点,并对贝叶斯算法和中
文分词技术进行了研究,设计和实现了一个基于贝叶斯算法的垃圾邮件过滤系
统,主要内容如下:
电子邮件的工作原理主要介绍了MUA,MTA,MDA三种电子邮件数据传递方
式和电子邮件工作的基本原理;电子邮件的传输协议介绍了简单邮件传输协议、
第一章绪论
题下一步需要进一步做的工作进行了展望。
6
第二章电子邮件相关技术介绍
第二章电子邮件的相关技术介绍
第一节电子邮件的工作原理
电子邮件还有电子信箱和电子邮政两个别称,它的通信是通过电子技术进
行信息交换来实现的。电子邮件是在上个世纪70年代发明,80年代中期兴起的,
到90年代中期,随着互联网浏览器的诞生和电子邮件技术非常广泛的使用,电
子邮件已经成为Intemet技术中应用最多的一种服务,电子邮件技术是一种非常
便捷的迅速的通信方式,用户可以快速的在网络中找到世界上任意角落里的另
一个电子邮件用户,但是这种通信方式仅需要花费用户很少的钱。电子邮件的
第二章电子邮件相关技术介绍
再通过收信人的MUA就可以查看到邮件的内容了。电子邮件的整个传输过程如
图2.1所示。
图3.1电子邮件传输原理
第二节电子邮件的传输协议
邮件的整个传输过程是通过在各个邮件服务器间的通信、传递邮件数据实
现的,要实现各个邮件服务器之间的数据传输就必须遵循一定的传输协议,而
且不同的传输过程有不同的传输协议,下面介绍五种重要的邮件传输协议【14】【15】。
(1)SMTP
SMTP(Simple
Mail
Transfer
Protoc01)简单邮件传输协议,它属于TCP/IP
协议族,提供一种面向连接的可靠的邮件数据传输服务,它控制由源地址到目
的地址传送邮件数据的传输和邮件数据的中转方式,SMTP协议规定,如果发送
端服务器和接收端服务器在同一个网络中,则直接传输邮件数据,如果不在同
第二章电子邮件相关技术介绍
这个协议用户可以将电子邮件的数据从邮件服务器拷贝到自己的电脑上,用户
也可以利用系统提供的客户端来对电子邮件服务器上的邮件进行删除、保存等
各种常用的操作,遵循POP3协议的邮件服务器通常被称为POP3服务器。POP3
协议是TCP/IP协议族中的一员,是由RFC1939定义的。通过电子邮件系统提
供的客户端来对电子邮件服务器上的电子邮件进行管理是本协议的最大优点。
(3)IMAP
斯坦福大学在1986年研发了一种邮件获取协议被称为Intemet
Mail
Access
Protocol(交互式邮件存取协议)IMAP。利用这种协议通过邮件客户端(例如
Foxmail)从邮件服务器上获取邮件的信息是IMAP协议的主要作用,例如下载电
子邮件等。当前的权威定义是RFC3501。IMAP是运行在TCP/IP协议之上的一
种协议,这种协议使用计算机的143端口。用户可以不用把所有的邮件全部下
第二章电子邮件相关技术介绍
电子邮件的发送和接收都是通过计算机和网络实现的,因此电子邮件的格
式必须遵循一定的规则和协议才能实现电子邮件的功能。RFC822定义了电子邮
件的标准格式,电子邮件的标准格式由信封、邮件头、邮件体和空行四个部分
组成…。
电子邮件的信封跟传统邮件的功能一样,使用来表明发件人和收件人地址
的,在SMTP的传输过程中是由命令“MAILFROM”和“RCPTTO”实现的,
其格式如下所示:
MAIL
FROM:<wanger@163.com>
RCPT
TO:<zhangsan@sina.com.cn>
邮件头的功能是记录电子邮件属性的基本信息,主要包括发信人地址、收
件人地址、邮件主题、邮件ID、发送时间、邮件中转服务器等信息,每封邮件
都有唯一的ID号,通过ID号来确认所收到的邮件数据是否来自同一封邮件。
第二章电子邮件相关技术介绍
邮件体就是邮件所要传输的主要内容信息,邮件体主要由段头和段体信息两
部分组成的,段体信息就是邮件的正文,段头部分主要描述了正文中用到的文
字格式和所用到的编码技术,常见的字段及字段含义如下表所示【18】:
表2.2邮件体常用字段与相应含义表
字段含义
Content-Type
段体的类型
Content—Transfer-Encoding
段体的传输编码方式
Content-Disposition
段体的安排方式
Content.m段体的ID
Content.Location
第二章电子邮件相关技术介绍
第四节本章小结
本章主要介绍了电子邮件的相关技术,包括电子邮件的基本传输原理,并
详细介绍了邮件传输的三个部分MUA、MTA、MDA;然后介绍了电子邮件传
输过程中所用的相关协议,主要包括SMTP协议、POP3协议、IMAP等重要的
协议;最后介绍了电子邮件的基本内容格式和电子邮件的编码格式
第三章贝叶斯分类算法及邮件预处理技术
第三章贝叶斯分类算法及邮件预处理技术
贝叶斯分类算法是基于贝叶斯算法垃圾邮件过滤系统的理论基础,贝叶斯
算法来源于概率论、基本被用在处理统计学中比较随机性的问题,基于贝叶斯
理论的垃圾邮件过滤技术是目前最有效的技术之一。由于中文文本的词语之间
是相连的,不能像英文那样通过标点符号和空格就能实现分词,因此中文文本
分词需要专门的技术来实现,邮件经过分词处理后,如果将每个单词都表示成
特征项的话,特征词的数量将会十分庞大,因此需要对分词进行提取处理,提
取出那些对邮件分类能够起到作用的分词作为特征项,将那些对邮件分类没有
作用的分词去掉,来提高邮件分类的效率,文本分词和特征提取的结果对整个
过滤系统的性能和效率有着很大的影响。
第一节贝叶斯分类算法
第三章贝叶斯分类算法及邮件预处理技术
定义3.2:设S是一个随机实验的样本空间,E是这个随机实验的随机事件,
对于其中的任意一个随机事件A都赋予一个实数,记为P(A),称为这个随机事件
A发生的概率。
定义3.3:设A、B是随机实验中的两个随机事件,且事件A发生的概率P(A)>0,
则称
朋㈤=篙
通过对条件概率公式进行进一步的推导便可以得出贝叶斯公式。
(3.1)
为事件A在事件B发生的条件下的条件概率。我们把式(3.1)称为条件概率公式。
定理:设一个随机实验的样本空间为S,A为这个随机实验的一个事件,B1,
B2,B3,…为样本空间S的一种划分,且P(A)>0,P(B:)>0(i=1,2,..,n),则
有
P(Bi[A):善螋i=1,2,…,n
∑只彳I色)鹏)
j=l
(3.2)
第三章贝叶斯分类算法及邮件预处理技术
设两种邮件的类型空间为{C,,C:),邮件文本的特征空间为{w。,
则对于给定的邮件类型C,或者C。好,则根据贝叶斯公式有:
p(c阶卑铲
其中:
(3.4)
P(W)=尸(C1)P(wC1)+P(C2)P(wC2)
P(WIC)=尸(%,%,...,%IC)
判断邮件为垃圾邮件或合法邮件概率的公式为:
P(CW)=Max{P(Cl(3.7)
I形),P(C2I∥))
(3.5)
(3.6)
在式(3.4)中分母P(W)和邮件的类别C无关,因此通过式(3.7)判断邮件
是否为垃圾邮件是可以忽略,因此只需要计算P(C)和P(矽IC)的概率即可判断邮
件的类别。贝叶斯分类器的基本结构模型如图3.1所示。
图3.1贝叶斯分类器的结构模型
3.1.3朴素贝叶斯分类模型
由一般贝叶斯分类模型中可知,通过式(3.4)来判断邮件是否为垃圾邮件,
需要计算P(C)和P(矽IC),其中P(C)为先验概率,一般比较容易计算,但是
尸(∥I
第三章贝叶斯分类算法及邮件预处理技术
量,这种模型被称为朴素贝叶斯模型,而且通过实验证明朴素贝叶斯模型具有
较好的过滤性能。
假设M是邮件样本集中属于第G类邮件的总数,N表示邮件样本集的总数,
则P(C)的计算公式为:
尸(G)=丝N
假设给定类别的样本邮件集G有n个特征词,分别为w。,
且这些特征词之间是相互独立的,则有:
P(W
G)=P(彬,%,...,呢IG)
W:,…,
(3.8)
W。,并
G)=兀尸(彬l
i=1
(3.9)
朴素贝叶斯分类器的结构模型如图3.2所示。
图3.2朴素贝叶斯分类器的结构模型
第二节邮件内容解析
第三章贝叶斯分类算法及邮件预处理技术
GB232
1(2Byte)、GBK(2Byte)、UTF-8(3Byte)、Bi95(2Byte)等。
第三节文本分词技术
文本分词是垃圾邮件过滤系统中比较重要的一个环节,对系统的性能和效
率有着很大的影响。分类方法一般分为两类:英文分词和中文分词。
英文分词通过标点符号和空格等非字母字符作为分词依据就能实现,分词
方法比较简单。
在中文文本中词语之间是相互连在一块的,不像英文字符那样有比较明显
第三章贝叶斯分类算法及邮件预处理技术
3.基于词频分词法。
词频分词法的基本思想是:通过统计的方法计算相邻字出现的频率来表示
他们的互信息,当他们的频率超过某个阈值时,就把这两个字当成一个词,然
后把这些词的词频相乘从而得到最后结果。这种方法复杂度比较高,而且低频
词的错误难以克服,迄今为止尚未有成功的应用报道。
4.N.最短路径法。
N.最短路径法的基本原理是:首先在待分文本中找出含有正确结果的M个
粗分词,接着根据这些粗分词结果的性能和准确度,从这M个结果中找出最佳
第三章贝叶斯分类算法及邮件预处理技术
突出了某些比较重要的特征词。
2.互信息
TF.IDF方法只是对分词特征和文档之间的关系进行了描述,并没有反映出
分词特征与邮件类别之间的关系,互信息则描述了分词特征与邮件类别之
间的关系,互信,皂,(Mumal
Information),简称MI,其定义如下:
MI(T)=善2
P(Cf)1。g篙
(3.…
其中:尸(G)表示在第i类文本在训练文本总数中出现的概率,P(T)表示分
词特征T在训练文本集中出现的概率,P(T
f)表示分词特征T在第i类文本总
特征分词中出现的概率。MI越大,则分词特征和邮件类别共同出现的可能性也
越大【321。
3.信息增益
信息增益是根据样本特征信息增益的大小来反映其信息量的大小,样本特
征的信息增益越大,则其包含的信息量也就越大。信息增益的公式定义如下:
IG(T)=-Zp(c,)+P(丁)∑P(c,Ir)+P(亍)∑P(c,I
T)logP(C,I
第三章贝叶斯分类算法及邮件预处理技术
(3.13)
其中:N代表所有文档,Ⅳ(G,丁)代表属于类别G且包含特征词T的文档
数,Ⅳ(G,丁)表示即不包含特征词T,也不属于类别ci的文档,N(T,e)表示包
含特征T,但不属于类别Ci的文档,N(T,Cf)表示不包含特征T,但属于类别Ci
的文档。z2统计量的缺点是【33】:没有考虑到特征词在文本中出现的频率,对低
频词的分词效果不是太理想。
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与
设计
前面三章主要介绍了电子邮件系统的一些基本知识、贝叶斯算法的基本原
理和垃圾邮件过滤系统中用到的一些基本技术,本章将进入本论文的主题,基
于贝叶斯垃圾邮件过滤系统的设计阶段。本文的目标是设计一个基于贝叶斯算
法过滤并加入黑白名单过滤和规则过滤的垃圾邮件过滤系统,将此系统放在用
户邮件接收服务器上,对用户接收到的邮件进行过滤,将垃圾邮件拦截掉后发
给邮件用户客户端。下面具体介绍整个过滤系统的设计方案。
第一节系统的需求分析
软件系统的开发最难办的是要非常准确的知道我们要开发一个什么样的软
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
中的安装位置如图4.1所示。
MUMMTAl
MTA2
发件方
4.1电子邮件系统示意图
垃圾邮件过滤系统的最终使用者最关注的垃圾邮件过滤系统的性能,也就是
垃圾邮件过滤系统的质量,评价垃圾邮件过滤系统性能的指标是垃圾邮件过滤
系统的有效性和垃圾邮件过滤系统的过滤效率。垃圾邮件性能的判断过程是一
个比较复杂的过程,整个评判过程包括评判指标的确定过程,评判数据的选择
过程和评判环境的构建过程等。垃圾邮件过滤系统有效性的判断所依据的指标
常用的有两个:
1.正常邮件的误过滤率(hammisclassificationpercentage,简写hm%),
第四章基丁贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
图4.2整个系统中三种过滤方法的组合关系图
基于这种过滤系统的设计方案,垃圾邮件过滤系统应该具有的功能有:传
输控制功能、邮件数据包编解码功能、中文邮件处理能力、垃圾邮件过滤功能、
反馈学习能力、垃圾邮件处理能力、邮件正常的转发功能、良好的人机交互功
能。
传输控制功能:整个垃圾邮件过滤系统安装在用户电子邮件接收服务器上,
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
中文邮件处理能力:基于贝叶斯算法的过滤系统需要用到特征词,特征词
是在邮件的文本中提取的,也就是说特征词是从邮件的文本词中选出来的,英
文单词一般都是通过空格或标点符号隔开,比较容易区分,但是中文文本都是
通过单个的词连在一块组成一个句子,词语隐含在句子中,没有比较明显的标
志来区分开,因此中文文本分词要比英文分词复杂的多,因此垃圾邮件过滤系
统对中文邮件的处理能力也是过滤系统性能高低的一个重要标志。
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
子模块,邮件采集模块、黑白名单和规则过滤系统模块、电子邮件预处理模块、
过滤系统的训练模块、过滤系统的分类模块。
邮件采集模块:用户的收到的电子邮件放在用户的电子邮件服务器上,因
此需要邮件的采集模块来实现从用户邮件服务器中读入指定邮件的功能,系统
得到垃圾邮件的数据内容后进行下一步的处理过程。
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
图4.3过滤系统的总体设计框图
第三节系统子功能模块设计
整个垃圾邮件过滤系统的五大子模块中邮件采集模块主要实现邮件数据包
的拦截功能,相对来说比较简单。下面主要介绍一下黑白名单和规则过滤模块、
26
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
邮件预处理模块、系统训练模块、系统分类模块的设计和数据库模块设计。
4.3.1
黑白名单和规则过滤模块设计
整个垃圾邮件过滤系统中加入黑白名单和规则过滤模块可以提前过滤一部
分邮件。过滤系统在拦截到邮件数据包时,可以根据在SMTP会话过程中的Mail
From和Recpt
To等进行黑白名单过滤,
并对邮件标题和正文中过滤规则不允许
出现的字符串和关键字进行规则过滤。黑白名单和规则过滤模块系统设计框图
如图4.4所示。
用户邮件
邮件采集
邮件中有规邮件中无规
则关键词<勺豆则过泠则关键词
人
垃圾邮件正常邮件邮件
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
4.3.2邮件预处理模块设计
邮件预处理模块要实现的功能有邮件内容的解析、文本分词、处理停用词
和分词特征提取。邮件预处理模块系统设计框图如图4.5所示。
I邮件内容提取
1
r
邮件内容解码
1r
中文分词
1r
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
图4.6邮件头提取过程设计框图
由于邮件头中字段比较多,本流程图中只给出了发信人地址字段、收信人
地址字段和抄送人地址字段的处理方法,其余字段的处理方法类似。邮件头中
的content.type字段给出了邮件的正文文本类型,如果为text类型直接处理,如
果为multipart类型则需要记录boundary的值,用来进行对邮件体字段的划分。
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
邮件体的提取过程设计框图如图4.7所示。
图4.7邮件头提取过程设计框图
其中,本文主要处理了text/plain(纯文本格式)、text/html(网页格式)、
multipart/alternative(text与html格式二选一)三种格式邮件体文本处理类型,如果
30
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
邮件类型是multipart类型,则表示邮件体中包含两个或两个以上的字段,这些
字段通过boundary进行分割,而且每个字段采用的编码格式和字符集不相同,
需要分别进行处理,本文只处理了word和pdf两种格式的附件,其他二进制格
式如音频或视频等未作处理,需要做进一步的研究。
2.邮件内容解码。电子邮件系统只能传输7bit的ASIIC码,对于其他类型
的字符现在通常采用MIME(MultipurposeExtensions)进行编码后进
Internet
Mail
行传输,最后接收端进行编码还原为原码。在MIME协议中定义了Base64和
QP(Quote.Printable)两种编码方法,它们的编码原理已经在第二章第三节进行了
讲解。对于解码后的汉子二进制流还需要采用字符集进行进一步的解码,得到
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
的,因此需要从邮件的内容中提取出特征词并计算特征词的出现的概率,这些
特征词是从邮件内容的词语中筛选的,对于英文邮件来说,可以通过其自身的
特点进行分词,如单词之间的空格、标点符号等。但是中文一句话都是连在一
块的,词与词之间没有明显的区分标志,并且经常根据上下文的语境变化,这
给分词带来了很大的困难。
中文分词技术在整个中文信息处理中起基础和关键性的作用,最近几年来,
我国的工程技术人员已经开发了多种现代书面汉语自动分词软件,在国内许多
科研机构的努力下,在利用计算机进行文本分词方面获得了不少突破,现在常
用的中文分词算法有最大匹配法、最优路径法、特征词库法、邻接约束法、人
工神经网络法、无词典分词法等【34】【35】。
中国科学院两位研究员张华平、刘群经过一年的努力,开发出一套广受专
家学者和工程技术人员好评的汉语分词系统一计算所汉语词法分析系统
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
4.停用词处理
邮件内容进行中文分词后得到的分词有很多与邮件过滤无关,而且有些出
现的频率非常高但是并没有什么实际意义,例如“这、那、你、我、你们、我
们”等等,这些词在邮件文本中出现的频率非常高,但是对系统过滤来说基本
没有什么作用。还有一些词与内容无关但也经常出现的功能词,如“而且、可
是、如果、那么等等”,这些词对邮件分类也没有多大作用,它们只是在文本中
起辅助作用,我们通常将这些功能词和出现频率比较高却对分词没有什么用的
词成为停用词(stop
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
数小于n的特征词,其中n的值取1,2,3,…,n等整数,n的取值可以根据
实际情况来调。
(2)通用词过滤。删除在邮件文本中通用的、并且在邮件文本中普遍存在
的特征词。
(3)最后根据信息增益公式计算剩下特征词的信息增益值,并将特征词根
据信息增益值的大小从大到小进行排列,然后根据特征词向量的维数来选取排
在前面的特征词数量,最后根据特征词向量的维数多少来进行试验,选取邮件
分类效果最后的特征向量维数。
通过信息增益的方法来提取邮件文本的特征词,删除了大量的冗余特征词,
大大的降低了特征向量的维数,降低了邮件分类程序的复杂度,从而提高了邮
件的分类效率。整个对特征词用信息增益的方法进行特征词提取子模块设计框
图如图4.10所示。
厂—————————————]
...........................................一
特征词
l选取前N个特征词
图4.10信息增益提取特征词子模块设计框图
4.3.3系统训练模块设计
为了使系统具有对邮件类型的分类能力,需要先对系统进行训练使系统具
有获得对邮件的分类能力,通俗的说就是通过训练使系统具备区分邮件类型的
34
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
“经验”,具体到系统来说就是要计算特征词的先验概率。系统的训练模块分为
两个部分:系统初始训练模块和系统反馈训练模块。系统初始训练模块是用实
现准备好的正常邮件集合垃圾邮件集来来对系统进行训练,使系统具有对邮件
分类的能力;系统的反馈模块是系统对邮件进行分类后将邮件加入正常邮件集
或垃圾邮件集,对系统进行进一步训练使系统不断的提高对邮件的分类能力,
不断适应垃圾邮件的变化。训练模块的流程如下:
(1)将正常邮件集的特征和垃圾邮件集的特征进行分别整理。
(2)分别计算垃圾邮件集和正常邮件集中特征的先验概率。
(3)邮件分类后重新计算垃圾邮件集合正常邮件集中特征的先验概率
(4)形成统计表
训练模块设计框图如图4.11所示。
1r
特征词先验概率计
算
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
合评分,评分大于阈值的则被分为垃圾邮件,反之则被分为正常邮件,并且用
户可以根据需要调节这个阈值。本模块还有另外一个功能就是用户分类功能,
用户可以根据自己的需要对邮件进行手动分类处理。系统分类模块设计框图如
图4.12所示。
邮件预处理训练统计表
。。+。。。。。。。。。。。。。。。。。。。。。。。。、。。。。。。。。。。。。。。。。。。。。。。。。一
图4.12系统分类模块设计框图
第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计
在垃圾邮件过滤系统的预处理阶段得到邮件集的特征词,在系统的训练阶段
得到邮件特征词,这些特征词以及这些特征词的先验概率形成的统计表需要保
存在数据库中,当用户收到新的邮件时,在系统的判定阶段调用数据库中的数
据计算贝叶斯概率来对邮件进行判定。根据系统的需要表的设计结构如表4.1所
示。
表4.1系统训练统计表
字段的名称字段的数据类型字段的说明默认值备注
id
NT
主键,自动编号
%rd
FLOAT
特征词
特征词在正常邮件
Numl0
烈T
中出现的数量
关键词在正常邮件
GoodFLOATO
中出现的概率
特征词在垃圾邮件
Num2O
烈T
中出现的数量
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与
测试
第四章介绍了整个垃圾邮件过滤系统的总体设计和各功能子模块的设计,
本章内容将主要介绍整个垃圾邮件过滤系统的具体实现,下面将具体介绍系统
的五个子模块的具体实现。
第一节邮件采集模块的实现
邮件采集模块就是要获取邮件的信息的,为了表示邮件的信息,我们定义
了类mbody_s来表示邮件信息,类mbody_s具体定义如下:
class
mbody_s
{
int
count;
unsignedsize;
int
p用来表示邮件的总数目木/
/木用来表示数组的大小车/
/幸用来表示邮件的起始偏移量;|/
unsigned
unsigned
)
int
start;
int
length;
/木用来表示每封邮件的大小木/
邮件采集模块的具体实现流程如下:
(1)首先申请内存空间,如果成功则程序进行下一步,如果不成功则返回
NULL,结束数据采集模块程序的执行。
(2)将邮件读入到内存中,如果成功则程序执行下一步,如果不成功则返
NULL,结束程序的执行。
(3)用固定值和邮件的“FROM”头域的值进行匹配,如果匹配成功则返
回mbody
行。
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
图5.1邮件采集模块的程序流程图
39
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
邮件采集模块的程序用子函数collect()表示,程序可以通过“From”的特
征来区分每一封邮件,然后通过指针的移动来指向另外一封邮件,从而一封一
封的读取每一封邮件。程序的具体代码如下所示。
int
collect()
{
if(prenewline&&(stmcmp(buf,”From”,5)==0))
{
pos=flpos-strlen(buf);
mbody->length[mbody->count]=pos—-mbody->start[mbody-->count];
if(mbody->count>=(mbody->size-1))
{
mbody->size+=4096;
newptr=reaaloc(
mbody->start,sizeof(pos)宰mbody一>size));
if(newp忙NULL)
{
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
free(mbody);
return
NULL;
)
mbody->count++:
mbody->start[mbody-.>count]=pos;
mbody->length[mbody->count]=O;
return
0:
)
邮件采集模块可以通过mbody->count返回用户邮箱中邮件的数目,并且通
过邮件旬柄h—mail和num,mbody_select函数可以实现选择该邮箱第num封邮
件的功能,mbody_select的主要代码如下:
int
mbody_select()
{
fseek(fp缸,mbody->start[num],SEEK_SET);
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
return
1;
)
opts一>inbuf=buf;
opts->inbufsize--mbody->length[num];
return
0:
第二节黑白名单和规则过滤模块的实现
定义函数AddFiltert()来实现本模块的功能,此模块包含两部分黑白名单过滤
和规则过滤,分别定义函数BlackListFilter()、WhiteListFilter()和AllowListFilter()
来表示。函数直接的调用关系如图5.2所示。
图5.2黑白名单和规则过滤模块函数之间的调用关系示意图
其中,函数BlackListFilter()实现黑名单的过滤程序,函数WhiteListFilter()
实现白名单过滤程序,函数AllowListFilter()实现规则过滤的程序,子模块函数
AddFiltcr()首先调用WhiteListFilter()看发件人是否在白名单中,如果在白名单
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
(2)邮件内容文字比较少,连接非常多。
(3)包含垃圾邮件关键词,如免费、特卖、培训、发票等,用户可以根
据自己的需要添加或删除。
第三节电子邮件预处理模块的实现
本小节是电子邮件预处理模块,用函数Mail
Preprocessing()来实现,主要实
现邮件文本内容提取、邮件文本内容解析。邮件文本分词和邮件特征词提取及
去停用词的功能,分别用函数ContentExtraction()、ContentAnalysis()、
ContentWord()和FeatureExtraction()来实现。
5.3.1
邮件文本内容提取子模块的实现
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
图5.3函数MailHeaderExtraction()的程序流程图
其中,ReadMail()是读取邮件内容数据函数,SendMailor()、AcceptMailor()
和TitleMailor()分别是发件人信息、收件人信息和邮件标题处理函数,
DecodingModule()是邮件标题、收件人信息和发件人信息汉子解码函数,
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
函数MailBodyExtraction()的程序流程图如图5.4所示。
E三
图5.4函数MailBodyExtraction()的程序流程图
其中,DecodingProcess()是文本解码处理程序,RemoveHtml()是去除Html
标志程序,OtherProcess()其他类型文本处理程序,Recordlnfo()是文本信息记录
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
Over()程序结束处理程序。
5.3.2邮件文本内容解码子模块的实现
电子邮件的报文有RFC822格式报文和MIME格式报文两种,RFC822格式
的报文没有经过编码直接进行传输,所以不用进行解码,MIME格式的报文主要
有两种编码格式:Base64编码格式和Quoted.printable编码格式,所以需要对这
两种格式的邮件报文进行解码。本模块用函数MailDecode()实现,本函数的程
序流程图如图5.5所示。
【.........................。...一
电子邮件报文数据
是
图5.5函数MailDecode()的程序流程图
本函数调主要调用用五个子函数分别是Rfc822()、Base64Decode()、
QPDecode()、OtherDecodingProcess()和CharacterSet(),其中函数Rfc822()实
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
现RFC822格式的报文处理功能,函数Base64Decode()实现Base64编码格式数
据报文的解码,QPDecode()函数实现Quoted.printable编码格式数据报文的解码,
OtherDecodingProcess()实现其他编码格式数据报文解码处理,CharacterSet()实
现字符集处理。
5.3.3邮件文本分词子模块的实现
本小节实现邮件文本的分词功能,该模块用函数TextSegmentation()来实现,
该函数需要实现中文分词功能、英文分词功能和其他文本分词的处理,中文分
词功能比较复杂,本文采用中科院计算所编写的汉语词法分析系统ICTCLAS来
实现,ICTCLAS的基本知识在第四章第三节4.3.2中介绍了,英文分词功能比较
容易实现,通过一个子函数来实现,其他文本的分词本系统还没有具体实现,
这是本系统需要以后继续增加的功能,为以后扩展功能留下接口函数
TextSegmentation()程序流程图如图5.6所示。
用户邮件文本
}7
中文//I≤二≥::\其他语种
弋:二7
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
有实际意义的分词,在邮件中出现比较少的分词和在垃圾邮件和正常邮件中出
现的概率差不多的分词。将没有实际意义的分词放在一块形成一个表,即建立
一个停用词表,将分词得到的每个分词和停用表进行对照,将包含在停用表中
的分词去掉。邮件中出现次数比较少的分词和在垃圾邮件与正常邮件中出现概
率差不多的分词通过建立相应的规则来区分。
停用词表中包含的主要是没有意义的中文分词和没有意义的英文分词。在汉
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
表5.2英文中常用的虚词和感叹词
,fl
as,than,until,that,when、while,and,but、or、nor,SO,therefore,
because
连词
yet、however、nevertheless、hence,then,though、unless,thenl
冠词
a、an、the
in、of,on,to,for、at,up、upon,into,onto,withl
about、across,after,
against,among,by、off,over,around、before、behind,below、beside,
介词
besides、between、beyond、down、near、since、through、till、toward、under、
per、via,inside,outside、throughout,withinlwithout,during,except,
from、like
感叹词
oh、ah、well、hello、Why、alas
邮件中出现次数比较少的分词的判断规则如下面式(5.1)所示。
Numl+地m2<3
分词出现的次数。
(5.1)
其中,Numl表示在正常邮件中分词出现的次数,Num2表示在垃圾邮件中
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
LowFrequencyWord
()
图5.7函数ToStopWord(1程序流程图
其中,函数NonsenseWord()实现邮件文本中无意义分词的处理功能,函数
LowFrequencyWord()实现低频分词的处理功能,函数EqualFrequency()实现在正
常邮件和垃圾邮件中处理频率差不多的分词的处理功能。
5.3.5特征词提取模块的实现
本系统通过信息增益的方法来实现邮件文本的特征词的提取,特征词提取
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
旺邳
l选取1狲个特
征词
l特征词导入特
征库
图5.8函数ToStopWord()程序流程图
第四节过滤系统训练模块的实现
过滤系统的训练部分的实现的工作主要是训练样本集的选取和计算特征词
的先验概率形成统计表。
在国际上英文垃圾邮件集比较多,很容易获得,如邮件内容不加密的
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
Ling.spam语料和Spam
Assassin语料等。但是目前比较标准的中文垃圾邮件语
料库还不是很常见,现在常用的只有华南理工大学网络中心提供的SEWM中文
邮件语料集和中国教育和科研计算机网紧急响应组发布的CCERT中文邮件语料
集。本系统中英文邮件采用SpamAssassin语料,中文邮件采用SEWM语料。
在系统中过滤系统的训练模块通过函数TrainModule()来实现,该函数主要实现
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
第五节过滤系统分类模块的实现
过滤系统的分类模块的实现的工作首先是确定过滤系统的分类阈值,然后
是通过贝叶斯公式和特征词的先验概率,计算邮件属于垃圾邮件的概率,最后
与阈值相比较将邮件进行分类。在系统中过滤系统的分类模块通过函数
ClassificationModule()来实现,函数ClassificationModule()程序流程图如图5.1
0
所示。
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
第六节过滤系统的测试
首先定义系统的性能评价指标:
(1)召回率(Recall),表示垃圾邮件被正确分类的数量在总垃圾邮件数量中比
率,召回率越高表明垃漏网的垃圾邮件越少,系统的性能越好,Recall的定义公
式为:
RecaH=—』坠!!,_一木100%
ivlw...)R+,z∥_∥
(5.1)
其中,%.+∥表示被正确分类的垃圾邮件的数目,,z矽.月表示被错误分类的垃
圾邮件的数目。
(2)正确率(Precision)。正确率Precision的公式定义为:
Precision=—_堕L宰100%
rlR-+W+,2矽_矽
(5.2)
其中,,z¨∥表示把合法邮件判定为垃圾邮件的数目。
(3)调和平均。它将正确率和召回率进行调和平均综合成一个指标,调和平
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
集。
本系有三个值是可以在测试过程中进行变化,它们是训练邮件的个数、特
征值的选取个数和阈值,下面分别对训练邮件的个数、特征值的选取个数和阈
值设定不同的数进行测试。
(1)针对训练邮件数量对系统进行试验
表6.1训练邮件数量对系统性能的影响
训练邮件个数
400800012001600
85.287.391.195.495.595.483.7
90.693.896.997.897.788.3
180019002000
97.8
96.980.183.293.495.396.896.9
召回率(%)
中文
准确率(%)
召回率(%)
英文
准确率(%)
90.292.395.897.698.998.999
通过表6.1可以看出,在开始时准确率和召回率随着训练邮件数量的增加而
增加,但是当训练邮件数到达1800后,准确率和召回率基本没有多少变化的空
间了,这两个值变的相对来说比较稳定。
(2)针对特征值的选取数量对系统进行试验
表6.2特征值选取数量对系统性能的影响
特征值选取个数
102030405060
83.197969492.178.9
85.398.797.794.49280.6
召回率(%)
中文
准确率(%)
召回率(%)
英文
准确率(%)
80.188.597.294.293.192
83.187.59796.395.293.9
通过表6.2可以看出,特征值选取的数量对系统的性能指标召回率和准确率
相关性比较大,在开始时随着选取的特征值数量的增加,系统的召回率和准确
率也随之大幅的变大,但是当特征值选取的数量达到一定值后,系统的性能指
第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试
的特征词个数不是很多时,会因为特征词数量的不足而使系统的分类信息不足
而引起系统的分类性能不高,但是当特征词的数量过多时,造成对邮件分类影
响比较大的特征词变的不够明显,从而影响系统的分类性能。因此实验中系统
性能最好的那个特征值数量就是使本系统本系统性能最好所需要的特征的数
且
里。
(3)针对阈值的不同对系统进行试验
表6.3阈值的选取对系统性能的影响
特征值选取个数
O.5O.6O.7O.80.90.98
召回率(%)
59.383.596.596.896
68.2
中文
准确率(%)
68.872.788.997.897.998
召回率(%)
68.973.589.396.598.198.0
英文
准确率(%)
60.97386.596.797.697.6
通过表6.3可以看出,阈值选取不同的值对系统的性能指标召回率和准确率
有很大的关系,随着选取的阈值的值不断增大,召回率和准确率均有所提高,
但是当阈值达到某个值后,随着阈值的继续增加准确率基本趋于稳定,而召回
率有稍微下降的趋势,此值就是系统所要选取的最优阈值。
通过这三个实验可以看出,通过选取一定数量的训练邮件、最优的特征值
第六章总结与展望
第六章总结与展望
本系统针对电子邮件的垃圾邮件问题,并将贝叶斯算法与垃圾邮件过滤系
统相结合,设计并实现了基于贝叶斯算法的垃圾邮件过滤系统。将理论成功的
应用于工程实际,解决了垃圾邮件带来的负面影响。本文的主要工作有如下内
容:
1.本论文首先介绍了本课题的研究背景和意义以及国内外研究现状,从全局
的角度介绍了本论文的整体情况,明确了本课题所要研究的具体问题和问题的
参考文献
参考文献
[1】张萍,韩立娜.对邮件过滤技术发展现状的比较与分析.计算机与数字工程.2008年第
4期.2008.pp:102.106
【2]欧红星,杨路明.垃圾邮件过滤技术研究.湖南科技学院学报.2008.12.pp:96.97
[3]蒋秋香,叶苗,麦范金.垃圾邮件过滤技术的发展与现状.电脑知识与技术(学术交
流).2007年2l期.2007.pp:708.709
【4]新加坡将出垃圾邮件管理条例违规邮件罚款.2007年.http://www.20ju.com/content/
V4613.htm
[5]日本全面禁止垃圾邮件要求电信商提供企业信息.2008年.http://www.20ju.tom/content/
V16609.htm
[6】美垃圾邮件大王被捕入狱面临65年监禁之苦.2007年.http://www.20ju.com/content/
V7883.htm
[7]曹麒麟,张千里.垃圾邮件与反垃圾邮件技术【M].北京:人民邮电出版社,2003
[8]汪曙.反垃圾邮件技术探讨[1J.中国数据通信,2004,(10):58.60
参考文献
[23]黑名单服务:http:llwww.anti--spare.org.on/AID/6
【24】白名单服务:http://www.anti--spam.org.cn/CID/2
[25]蔡建,黄国兴.基于数据挖掘方法的电子邮件过滤[J].微型电脑应用.2001,7(8):3543
[26]宁静.基于数据挖掘的中文垃圾邮件过滤技术研究[D】.成都:西南交通大学,2006
[27]熊志勇.数据挖掘在反垃圾邮件领域中的应用与研究[D】.南昌:南昌大学,2006
[28]CCERT中文垃圾邮件过滤规则集.http://www.ccert.edu.Cn/spam/saJChinese.rules.htm.
[29】Kevin
Johnson,科欣翻译组.Internet
Email协议开发指南[M].北京:机械工业出版社,
2000
[30]James
W
Ross,陈鸣等.计算机网络.自顶向下方法与Internet特色[M].北
京:机械工业出版社,2005
FKurose,Keith
E
[31]Douglas
[32】David
Comer,林瑶,蒋慧,杜蔚轩等.用TCP/IP进行网际互联第一卷:原理、协
议与结构[M].北京:电子工业出版社,2001
H,Crocker.StandardfortheFormatofInternet
Arpa
TextMessages[S].RFC822,
1982.8.13
【33】AW.RichardStevens.TCP/IP详解,卷1:协议.北京:机械工业出版社,2001:332.343
[34]谢希仁.计算机网络[M].北京:电子工业出版社,1999
[35]Y
Yang,JP.Pedersen.A
comparativestudycategoriza-tion.In.Proc
ofthe14thConfon
IntMachine
on
featureselectionin
text
Learning(ICML,97),1997:410420
[36]刘洋,杜孝平等.垃圾邮件的智能过滤系统设计探讨.微机发展,2003,V01.13,No.4:l一3
[37】陈华辉.一种基于潜在寓意索引的“垃圾”邮件过滤方法.计算机应用研究,2000,17(10):
17.20
【38】盛骤,谢式千,潘承毅.概率论与数理统计(第二版).高等教育出版社,1990
【39】刘贵全,陈小平,张波等.基于Agent的信件自动处理系统的实现[J】.小型微型计算
机系统,2000,21(111:1123.1127
[40]SoonthornphisajK,Tang·On
N.,Chaikulseriwat
P.Anti-SpamFiltering:A
Centroid.Based
ClassificationApproach[A].ICSP
[42]Jason
02
Proceedings,2002.1096·1098
[41】边肇祺,张学工.模式识别.清华大学出版社,1999,12
D.M.Rennie.1ille:An
ApplicationFiltering.In:Proc
ofE-mail
Machine
Leaming
to
Of
TheSixthSIGKDDConf
ACMInt
OnData
KnowledgeDiscovery
and
Mining.Boston,
2000(8):20—25
[43]Sahami
M.,Sumais
S.,HeckermonD.,eta1.AToJunk
ofAAAI一98forText
Bayesian
ApproachFiltering
E-mail[A].ProceedingWorkshopCategorization[C],1
[44】Ajason
on
Leaming
998
LearningApplication
to
E-Mail
Filtering.In:Proc
Of
Discovery
andDataSIGKDDConfOn
Mining.Boston,
D.M.Rennie.1ille:An
of
Machine
Knowledge
TheSixth
参考文献
[47]I.Androutsopoulos,G.Paliouras,E.Michelakis.Learning
to
FilterUnsolicited
E·Mail.Technical
report
2004/2,NCSR'’Demokritos”,2004
[48]M.sNaor,
C.Dwork.PricingProcessingCombating
viaJunk
or
Commercial
Mail.Technical
Report
C¥95.20,1,1995
[49]Campaign
forReal
Mail.http://www.camram.org
[50】王波,黄迪明.遗传神经网络在邮件过滤器中的应用[J】.电子科技大学学报,2005,
34(4):505—508
[51]赖均.反垃圾邮件技术的研究和原型实现[D].成都:电子科技大学,2005.
【52]张华平,刘群.计算所汉语词法分析系统ICTCLAS[EB/OL].http://mtgroup.
致谢
致谢
本论文的完成,得益于我的导师吴英老师,是他的悉心指导和帮助才使我
的论文得以顺利完成。吴老师渊博的知识、敏捷的思维和严谨的工作作风感动
了我,深深地影响了我,使我受益终身。我的每一点成绩都凝结着老师的辛勤
汗水和培养,让我难以忘怀,再一次向导师表示深深的谢意。
衷心地感谢院、系和山东教育基地的各位领导、老师、同学,他们曾在我学
习和完成论文期间给予我的巨大帮助。感谢我的同学们在两年来对我的关心和
个人简历
个人简历
在学期间发表的学术论文与研究成果
个人简历:
杨艳生
本人生于1976年03月,1998年毕业于山东矿业学院济南分院管理工程专业。现在寿

本文发布于:2023-11-18 14:45:56,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1700289957232501.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:基于贝叶斯算法的垃圾邮件过滤系统设计与实现.doc
本文 PDF 下载地址:基于贝叶斯算法的垃圾邮件过滤系统设计与实现.pdf
| 留言与评论(共有 0 条评论) |