
维普资讯
第27卷第2期
青岛理工大学学报
VoI.27 No.2 2006
Journal of Qingdao Technological University
邮件过滤中基于关联分析的潜在特征词挖掘
巩玉玺 。,张春海 ,韩彦稳
(1.中国海洋大学,青岛266003}2.青岛理工大学计算机工程学院,青岛266033)
摘要:在反垃圾邮件过滤技术中,针对变形特征词(词组)所造成的过滤系统性能下降问题,提出
通过关联分析技术鉴别文本中潜在特征项的方法加以解决.介绍的特征词(词组)挖掘方法首先进
行词标引,然后利用关联分析技术识别文本中的特征词(词组).
关键词:邮件过滤,文本分类,关联分析
中图分类号:TP393.098
1 概述
1.1 垃圾邮件的危害及常用的垃圾邮件过滤技术
Internet最初的和现今最流行的应用就是电子邮件.她给人们的生活带来了极大的方便.然而,作为
其发展的副产品——垃圾邮件,却给Internet用户、网络管理员和ISP带来了无尽的烦恼,据统计,全世界
因为垃圾邮件每年要损失上千万美元.当前,垃圾邮件的源头正由国外向中国及东南亚的一些国家和地区
转移.目前我国垃圾邮件泛滥,情况极为严重.来自中国互联网协会的统计数据显示,2003年,国内的邮件
服务器共收到1500亿封垃圾邮件.数据还显示,2003年,每个网民平均每天收到1.85封垃圾邮件.为处
理这些垃圾邮件,每个网民每天至少需要花费3.65min.这意味着,全国网民每年会浪费掉15亿h的宝贵
时间.
不仅有大量的商业广告这样的垃圾邮件无休止地塞到我们的电子信箱中,还有不法分子利用电子信
箱传播一些色情、反动、暴力、迷信等不良信息.这些垃圾邮件一方面浪费了宝贵的网络资源,还带来严重
的社会问题,给社会秩序造成了极大的危害.因此,如何帮助人们有效地过滤掉垃圾邮件,营造一个健康、
和谐、有序的环境,已成为一个新的研究热点.
国内外对过滤技术的应用和研究在推进和发展阶段主要集中在三个方面:
其一,利用IP或域名“黑白名单”进行的邮件限制或过滤.
其二,基于数据挖掘技术进行的邮件过滤研究,利用文本分类与统计算法进行垃圾邮件检测,比较有
代表性的是贝叶斯过滤器.它是以自学习、自适应和极高的准确率占据了过滤器这个领域的主导地位.其
它研究包括:基于记忆信息、基于事件特征描述信息进行数据挖掘的垃圾邮件检测方法.
其三,基于垃圾邮件的特征分析、规则提取的规则匹配过滤方法.t4]
1.2 WEB文本挖掘及其在邮件分类中的应用
当前,文本分类已成为一个日益重要的研究领域.文本自动分类已成为一项具有较大实用价值的关键
技术,可被用于抽取符号知识、新闻分发、排序电子邮件以及学习用户兴趣.
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别.这样,用户不但能
够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易.利用文本分类技术可以对大量
文档进行快速、有效地自动分类.目前,文本分类的算法有很多种,包括神经网络、遗传算法、粗糙集在
收稿日期t2004~12—03

本文发布于:2023-11-18 17:04:41,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1700298282232524.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:邮件过滤中基于关联分析的潜在特征词挖掘.doc
本文 PDF 下载地址:邮件过滤中基于关联分析的潜在特征词挖掘.pdf
| 留言与评论(共有 0 条评论) |