2010年题2范文-论数据挖掘技术的应用.pdf

下载文档

0
0
约3.07千字
约 3页
2023-03-10 发布于上海
举报
版权申诉
保障服务

2010年题2范文-论数据挖掘技术的应用.pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

论数据挖掘技术的应用【摘要】 2010年9月我参加了新闻总署的 “网络舆情监管信息决策系统”的设计与开发，我担任了系统架构工作，并参与了部分功能代码地编写工作。网络舆情是一个新生事物，网络舆情监管主要指以BBS 论坛、博客、各种社交网站和虚拟社区等为平台而呈现出来的网民对社会上的人和事的看法监控分析。本项目的设计与开发是通过运用先进的数据挖掘技术，情报技术，内容管理技术，对网络相关舆情进行深入细致地搜集、整理、分析，并对一段时间内的内容进行有效地统计报告，给出对特定关注对象的内容地相关评价，为相关部门决策提供有力地支持作用。我在项目中使用了数据挖掘技术的关联分析，聚类分析，分类分析，预测等方法从舆情知识库中抽取出不同知识库对象，并根据统计分析方法形成相应的决策库系统。我从功能上将整个系统分为 “采，编，发”三个重要部分，并选用三层C/S 结构作为决策系统软件的结构。在系统开发过程中我选用.net作为系统的基本开发环境，因为它很好地支持C++等各种开发语言。目前该系统已经交付用户使用，正在为新闻总署净化网络环境提供了可靠的技术支持。【正文】 2010年9月我所在的单位承接了一个新闻总署的 “网络舆情监管信息决策系统”的设计与开发，我在项目中担任了系统架构和部分功能代码地编写工作。网络舆情是近几年的一个新生事物，它是伴随着互联网，Web2.0技术的发展而逐步发展起来的。网络舆情监管主要指以BBS 论坛、博客、各种社交网站和虚拟社区等为平台而呈现出来的网民对社会上的人和事的看法监控分析。舆情情报的内容主要是指对网络信息的采集，信息分类，信息统计，敏感信息判定、预警等。在进行舆情分析的过程中需要使用大量的信息规划方法，数据挖掘技术，情报技术和内容管理技术等。本项目的任务是通过对网络相关舆情进行深入细致地搜集，整理，分析，对一段时间内的内容进行有效地统计报告，对特定关注的对象内容给出相关评价分析，为相关部门决策提供强有力地支持作用。考虑到项目实际的情况，我采用了三层C/S 结构作为决策系统的系统架构。系统从下往上依次是数据存储层，功能层，表示层。数据存储层的主要任务是负责数据的存储，功能层包含三个部分，一个部分是负责数据处理的智能代理，这个部分包含了数据挖掘的所有处理逻辑，就如同人的大脑一样。另一部分是负责数据分配的应用服务器，这个部分主要是对处理任务进行分配，对客户端程序访问个数进行控制，并起到负载均衡，分布式处理的作用，它如同人的神经，起到连接上下层的作用。还有一部分是负责编辑处理关联规则的规则编辑器。在表示层的任务主要是负责显示，担负着用户和系统之间的交互。整个系统从功能上又可以分为 “采，编，发”三个部分。“采”是指从网上采集相关的信息； “编”指负责将采集到的数据经过分类，再经过聚类方式存入相对应的对象库，构成面向方面或者面向领域的数据模型结构； “发”是通过发布的方式，向不同领域的用户提供所关注的对象数据帮助其进行分析决策。下面将通过介绍整个系统设计的工作流程，来具体说明数据挖掘技术在整个系统中应用，并讲述数据挖掘的方法主要有哪些，我在设计架构整个系统过程中是如何进行选择应用的。数据挖掘的主要任务主要是关联分析，聚类分析，分类分析，预测分析和偏差分析等。整个系统我们通过关联分析建立一个模型，该模型没有采用自学习的方式，而是通过领域构建的过程。假设存在众多地历史文本，在历史文本中经过抽样统计，得到一些关键的词频。由这些词经过规则编辑器可以编辑成为一些词汇的集合。一条规则是由基本的与，或，非，异或逻辑关系通过排列组合而成。几条规则经过排列组合可以构成更为复杂的规则集。首先我们根据词频信息，采集网上相似度较高的文本，这个文本集是粗粒度的原始数据源，通过智能代理聚类学习方式，可以将这些粗粒度的原始数据源进行聚类处理。在聚类的过程中数据彼此相似，不同类中的数据相异。这样可以从宏观上把原始数据进行一次处理，我们称这个过程为 “打标签”。在聚类的过程中是有很多方法可以选择，比如基于K-means的方法，还有就是当下最为实用的基于贝叶斯的方法，我们通过选择比较发现基于贝叶斯的方法最终的处理的结果误判率更低，效果更好，所以采用该种方法。经过这次 “打标签”处理过后得到的数据就比较有规律性了，根据前面词频关联规则学习过程得到的规则集，再通过智能代理中对当下的二次数据源中所包含的标签信息进行适当的分类学习，分类的过程还是通过计算文本之