反垃圾邮件过滤技术探讨

更新时间:2023-11-18 15:59:27 阅读: 评论:0

我的村庄-八月节

反垃圾邮件过滤技术探讨
2023年11月18日发(作者:成人丁香社区)

2010年第7期

中图分类号:TP393.098 文献标识码:文章编号:1009—2552(2010)07—0161—02

反垃圾邮件过滤技术探讨

陈要武

(黑龙江省社会信用办公室,哈尔滨150001)

要:首先分析了垃圾邮件在我国泛滥的严重性,然后列举了现今被广泛使用的反垃圾邮件

过滤技术,并重点分析了贝叶斯过滤技术在反垃圾邮件实践中的应用,最后对未来反垃圾邮件

过滤技术提出了展望。

关键词:垃圾邮件;过滤;误辨率

Discussion on anti-spam ftering technology

CHEN Yao.WH

(Heiongjang Social Credi Ofce,Harbi150001,China)

Abstract:At frst,this paper analyses te spam problem in our country.Then it enumerates tree ant

spam flterng approaches widely used by people,and Bayesian Filtering is emphasized.At last,te anti—

spam fltering technology in the future is put forward.

Key words:spam;flterng;eiTor distinction rat

0 引言

近年来,全球互联网用户数量随着Intemet的膨

胀而急剧增长,随之而产生了许多问题,例如:垃圾邮

进行过滤。过滤规则一般由MTA管理员为所有本

地用户制定,过滤的区域有信头内容、正文内容或邮

件扩展部分的内容等。过滤规则可设定为分析或解

析恶意的邮件信头区域,解析邮件正文内容以查找

垃圾邮件关键词,检查邮件扩展部分(如附件)等。

许多基于内容过滤技术的垃圾邮件过滤系统,

都容易将合法的邮件误识别为垃圾邮件而将其过滤

掉,尤其是当合法邮件含有与过滤规则相似的内容

时。同时,垃圾邮件制造者也经常更换垃圾邮件发

件,病毒,Dos攻击等不良网络行为。据统计,在互联

网发送的邮件中,75%是垃圾邮件,用户的收件箱中

常常充斥着未被请求的、欺诈性的或者令人反感的邮

件。为了处理这些垃圾邮件,用户常常需要花费相当

多的时间。为了反击垃圾邮件,相关人提出了许多反

垃圾邮件的策略与技术,许多策略与技术已经被应用

于实际的反垃圾邮件行动之中,有效地减少了用户收

件箱中的垃圾邮件数量。在各种反垃圾邮件技术中,

送手段,以逃避系统过滤,如使用生僻的文字和带有

文字的图片。为了保证内容过滤规则的有效性,管

理员必须经常更新过滤规则。由此可见,内容过滤

最常用且最有效的技术是垃圾邮件过滤技术。

邮件过滤技术可以在不修改现有电子邮件协议

的基础上直接使用。较好的过滤技术可以减少误将

合法邮件当成垃圾邮件过滤掉的可能性,从而最大

限度地提高垃圾邮件的过滤效率。过滤技术虽然能

够阻止垃圾邮件进入邮件系统,但无法阻止垃圾邮

件的产生。下文将介绍现有的垃圾邮件过滤技术,

技术的智能化程度是比较低下的,因此,它不能满足

未来邮件过滤的需要。

散列值过滤

散列值过滤是将收集到垃圾邮件的特征进行哈

希运算,将计算后得到的散列值作为过滤规则进行

储存和使用。基于散列值的过滤系统在处理邮件

收稿日期:2010—01—1I

并对未来的邮件过滤技术提出展望。

内容过滤

内容过滤指直接根据电子邮件的不同内容区域

作者简介:陈要武(1967一),女,哈尔滨理工大学在读硕士,主要研

究方向为电子信息工程。

16l一

时,先计算接收邮件的特征散列值,再利用散列值与

预设的规则进行比较,如果符合垃圾邮件的规则,是正常邮件,并将其转发到用户邮箱中。垃圾邮件概

么,该邮件将被视为垃圾邮件而被系统过滤。然而, 率的计算主要根据所提取的关键字和公式(1)进行的。

这种过滤技术也有其缺点,垃圾邮件制造者经常通

过向邮件中插人无用信息干扰过滤系统对共同特征

的识别,从而逃脱系统过滤。

统计过滤

统计过滤是内容过滤和散列值过滤技术的改

进,它使用规则来衡量邮件消息的频率和模式。较

前两种过滤技术而言,统计过滤技术的智能化程度

要高许多。本节将重点介绍贝叶斯算法在垃圾邮件

过滤系统中的应用。

3.1 贝叶斯过滤技术的基本原理

贝叶斯过滤是一种基于统计学的邮件过滤方

法,有较低的误辨率,并且不需要管理员更新过滤规

则。过滤系统通过监视用户对垃圾邮件的分类判

定,自动调整过滤规则。

贝叶斯垃圾邮件过滤模型是基于贝叶斯概率模

型下的条件概率,假设有A (i=1,2,…,n)个特征

可以判断一封邮件是垃圾邮件,P(A )(i=1,2,…,

)代表具备A 特征的垃圾邮件的概率,那么判断垃

圾邮件的概率可以用式(1)表示。

兀P(

P(Spam)= —— 生 -——一(1)

nP()+nP(1-Ai

当计算出P(Spam)后,可以根据预定的过滤规

则的一个阀值O来判断是否是垃圾邮件,该阀值的

大小决定了过滤规则的严格性,阀值 越大则过滤

规则越严格,会导致误辨率增大,阀值Ot过小则使

过滤规则严格性降低,导致过滤效率降低。过滤规

则的阀值与误辨率的关系如图l所示。

阀值

误辨率

图1 阀值与误辨率之间的关系

从图1可知,阀值的选择是应该在大量实验基

础上进行恰当的选择,以便所建立的垃圾邮件过滤

系统具有最佳的过滤效率。

在对大量垃圾邮件的关键词进行详细分析之

后,就可以根据分析的结果确定阀值 的大小。当

P(Spam)>ot时,系统将认为该邮件为垃圾邮件,从

162一

而将其滤除;当P(Spam)<o【时,系统则认为该邮件

基于贝叶斯的垃圾邮件过滤模型很重要的一步

是建立关键字HASH表。这样的表格应该建立多

张,这主要是由于垃圾邮件的多样性,以及不同用户

对垃圾邮件定义的不同。为了根据不同的用户需要

进行垃圾邮件的分类过滤,必须依据垃圾邮件不同

的类型建立多个HASH表。该HASH表的散列函

数可根据具体的情况进行适当的选择,选择散列函

数时应遵循“尽量避免冲突”的原则。

贝叶斯算法过摅垃圾邮件的基本流程如图2所示。

圈2基于贝叶斯算法的垃圾邮件过滤漉程

4 结束语

虽然目前的反垃圾邮件技术有效地减少了垃圾

邮件数量,但仍然不能100%遏止垃圾邮件的蔓延,

并且有些过滤技术误辨率相当高,经常将用户的正

常邮件拦截在收件箱之外,影响邮件用户正常的邮

件接收。因此,研究高智能化的垃圾邮件过滤技术

应该是下一代反垃圾邮件技术的重点方向。

参考文献:

[1]刘明川,彭长生.基于贝叶斯概率模型的邮件过滤算法探讨

[J].重庆邮电学院学报(自然科学版),005,17(5).

[2]胡可,张家树.基于人工免疫系统的反垃圾邮件过滤机制[J].

计算机应用,2005(25).

[3]Dong—Her Shih,Hsiu—Sen Chiang,DaviYen C.Classicaton meth・

dshe dectn oew maou emais[J].Ima

Sciences,2005:241—261.

[4]AntSpam Technica Alnce(ASTA).Anpam Tehnica

Alanc Technoog anPol Propos[R].USA;ASTA,004.

责任编辑:李光辉

make的现在分词-加油努力的句子

反垃圾邮件过滤技术探讨

本文发布于:2023-11-18 15:59:27,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/zhishi/a/1700294367232513.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:反垃圾邮件过滤技术探讨.doc

本文 PDF 下载地址:反垃圾邮件过滤技术探讨.pdf

标签:反垃圾邮件
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 实用文体写作网旗下知识大全大全栏目是一个全百科类宝库! 优秀范文|法律文书|专利查询|