互联网 t云计算 作业.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
李辉 第一题 垃圾邮件的处理是目前Internet中亟待解决的问题。针对这一问题,检索相关的背景资料和研究现状,并对查找到的材料进行简要论述,比较不同处理方法优缺点。 关键字:垃圾邮件、anti-spam、基于语义分析的电子邮件过滤系统设计 垃圾邮件过滤技术的发展与现状 1引言 电子邮件是Internet中最善及,最普遍的应用,成为人们生活、学习、工作中必不可少的通讯工具。电子邮件在为人类服务的同时,随之而来的垃圾邮件却给人们带来无尽的烦恼。研究垃圾邮件及反垃圾邮件技术有着深远的社会意义和巨大的经济价值,帮助人们更有效地远离垃圾邮件的骚扰,营造一个健康、和谐、有序的互联网社会环境。目前,过滤技术是最为广泛使用的反垃圾邮件技术,也是当前众多学者研究的热点。本文对目前垃圾邮件过滤技术发展及现状作了简要的分析,提出了下一步研究工作。 2过滤技术 对抗垃圾邮件的最重要的技术是过滤技术,主要用于MDA(MailDeliverAgent)和MUA(MailUserAgent),典型的邮件过滤技术有黑白名单、规则过滤、概率统计分类等。 2.1黑白名单过滤 黑白名单是一个简单有效而最为常用的过滤方法,国内外已成立权威性的反垃圾邮件联盟,提供实时的黑白名单服务,如中国反垃圾邮件联盟的实时黑名单RBL,包括近期中国国内的主要垃圾邮件发送源、中国国内动态分配地址。其优点是对垃圾邮件处理能力的要求较低,它能够节省大量的带宽、存储容量和处理时间。缺点是不够灵活,对垃圾邮件的判别准确度不高。 2.2基于规则过滤 设置一些过滤规则,这些规则通常有信头分析、群发过滤、关键词精确匹配以及邮件内容中的其它特征。通过查找已有的垃圾邮件的匹配模式来过滤垃圾邮件,这需要依赖开发商不断的更新邮件规则。基于规则过滤方法的优点是规则较易理解和修改、易推广。如SpamAssassin工具,经过合适的参数调整,可以过滤90%的垃圾邮件。其缺点是在规律性不明显的应用领域效果较差。 2.3统计过滤方法 对邮件内容统计分类过滤方法,过滤正确率高,而且速度很快,是垃圾邮件处理技术中很受欢迎的一种方法。具有广泛的应用前景。如贝叶斯,SVM,KNN,神经网络。 2.3.1贝叶斯分类 贝叶斯分类基于贝叶斯定理,利用已知的邮件,建立垃圾邮件和非垃圾邮件关键词的贝叶斯概率模型,然后利用该模型判断邮件是否为垃圾邮件。M.Sahami等人早在98年就验证贝叶斯算法在垃圾邮件过滤中成功的应用效果。而朴素贝叶斯分类算法及其变体的发展及其应用。扩展了贝叶斯算法。贝叶斯过滤方法优势表现为:效率较优,对训练样本进行一次扫描,再进行统计分析;占用存储空间少。因此,贝叶斯算法得到广泛应用于现有邮件安全产品中。但他也具有一定的局限性:对训练样本依赖性大,对中文邮件处理效果不显著。基于其优越性,许多学者对基于贝叶斯分类算法进行研究改进,以提高贝叶斯过滤方法的性能。自学习的贝叶斯算法,基于多级属性集规则的贝叶斯分类新算法,基于有监督Bavesian网络,使用一种高斯分布模型的Flexible-Baves模型等通过实验验证有效地提高贝叶斯算法的性能。 2.3.2自学习K邻近算法(KNN) KNN基于类比学习,训练样本用n维数值属性描述,每个样本代表一个点。给定一个未知样本,KNN分类法搜索模式空间,找出最接近未知样本的K个训练样本。它是基于要求的或懒散的学习方法,它所存放的样本,直到新样本需要分类时才建立分类,这使得训练集合随着多变的垃圾邮件而随时变化,有利于邮件精确识别。 2.3.3神经网络 人工神经网络是在对人脑组织结构和运行机制的认识理解基础之上模拟其结构和智能行为的一种工程系统,是基于生物学中的神经网络的基本原理而建立的。神经网络的优点在于自适应性、学习能力和大规模平行计算能力。缺点就是消耗大量时间,在处理在线或需快速反馈的问题时不易使用此算法。 2.3.4支持向量机(SVM) 建立在统计学习理论的VC维理论和结构风险最小化原理基础上的,提供了一个与问题维数无关的刻画函数复杂性的方法,它引入高维特征空间,将输入空间的非线性决策边界转化为高维特征空间的线性决策边界,利用线性函数的对偶核,解决了数值优化的二次规划求解问题,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力,在两类分类问题上效果最佳。 垃圾邮件分类,可看作简单两类分类问题,垃圾及非垃圾邮件两类。Drucker 将线性SVM用于垃圾邮件过滤,得到的结果印证了这一点。采用二值表示的SVM的性能稍高于采用多值表示的SVM。实验证明了,与前面提到的贝叶斯、神经网络算法进行比较,SVM得到结果效果最佳。但计算量大、速度慢、参数选择经验性强、不能得到很优的解决,一般需借助其它方法进行结合弥补。 2.4其它垃圾邮件过滤方法 垃圾邮件的

文档评论(0)

wawahao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档