文本挖掘textmining技术基础.pptxVIP

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本挖掘TextMining技术基础会计学议题搜索引擎文本挖掘基础文本挖掘基础搜索引擎技术不单纯只是搜索搜索引擎技术除了实现Web搜索、图片搜索外,还能够干什么?搜索引擎核心技术有哪些?网络爬虫中英文分词排序算法Text Mining相关海量数据存储分布式计算等等Google的十大核心技术Google的十大核心技术:分布式基础设施:GFS、Chubby、Protocol Buffer分布式大规模数据处理MapReduce、Sawzall分布式数据库技术:BigTable、Sharding数据中心优化技术数据中心高温化、12V电池、服务器整合参考:/arch/google_app_engine_arch.html探/arch/google_app_engine_arch.html索/arch/google_app_engine_arch.htmlGoogle App Engine/arch/google_app_engine_arch.html背后的奥秘搜索引擎技术使用场景:内容相似度新闻站点的“您可能也喜欢”本质为:两篇文档/图书/商品内容的相似度搜索引擎技术使用场景:内容分类、聚类通用搜索引擎系统流程 Lucene 系统架构Lucene 系统架构搜索引擎中文本挖掘典型问题在搜索引擎中关于文本挖掘的典型问题怎样得到一篇文章的关键词、主题?怎样用计算机可识别的数学公式来表征一篇文档怎样处理查询关键词与文档的相似度怎样度量两篇文档的相似度?信息检索模型信息检索模型(Information Retrieval Model)是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。信息检索模型本质上是对相关度建模。原始查询查询表示文档表示原始文档相关度计算信息检索模型信息检索模型 信息检索模型可以表示为一个四元组的模型框架 IR = D, Q, R(q,d) D是文档表示,Q是查询表示,R(q ,d )是一个排序函数索引词(Index Term) 索引词是能代表文档内容的特征,可以是字、词、短语或者某种语义单元,关键词(key words) 可以看成索引词的一种。 文档表示成多个索引词的集合索引词的权重(Weight) 不同索引词作用是不同的,通过权重加以区分信息检索模型的分类 从所使用的数学方法上分:基于集合论的IR模型(Set Theoretic models) 布尔模型 基于模糊集的模型、扩展布尔模型基于代数论的IR模型(Algebraic models) 向量空间模型 LSI(隐性语义检索)模型 神经网络模型基于概率统计的IR模型(Probabilistic models) 概率模型 回归模型、语言模型建模IR模型、推理网络模型、信任度网络模型布尔模型(Boolean Model)布尔模型建立在经典的集合论和布尔代数的基础上在布尔模型中查询和文档均表示为索引词(“是否存在”)的布尔表达式,通常表示成D(t 1,t 2,? ,t i)的形式。布尔操作(关系) :与(AND)或(OR) 非(NOT) 相似度计算:查询布尔表达式和所有文档的布尔表达式进行匹配,匹配成功的文档的得分为1,否则为0。布尔模型的优缺点优点:简单、易理解、易实现现代很多搜索引擎中仍然包含布尔模型的思想,如Google的高级检索缺点只能严格匹配,文献要么相关、要么不相关,并没有一个相关级别的概念,因此很难有好的检索效果构造布尔逻辑式不容易,对于一般用户而言,很难用AND、OR、NOT运算符的结合来准确地表达一个检索语句,标引词的简单组配不能完全反映用户的实际需要;检索输出完全依赖于布尔提问与文献的匹配情况,很难控制输出量的大小结果不能按用户定义的重要性排序输出,用户只能从头到尾浏览输出结果才能知道哪些文献更适合自己的需要概率模型?概率模型优缺点优点采用严格的数学理论为依据,为人们提供了一种数学理论基础来进行检索决策;PubMed的related articles 。采用相关反馈原理在其中没有使用用户难以运用的布尔逻辑方法;在操作过程中使用了词的依赖性和相互关系。缺点:计算复杂度大,不适合大型网络参数估计难度较大条件概率值难估计系统的检索性能提高不明显,需与其他检索模型结合词频(TF)、文件频率(DF)假如要搜索一个词语ti 在文件集合{d1 ,d2 ,...,dn }出现的频率,则有两部分的重要信息:ti 在某篇文档dj 中出现的次数,称为此词语在此篇文档的频率(词频):TF(Term Frequency)文档集合{d1 ,d2 ,...,dn } 中包含ti 的文档个数,称为此词语在文档集合{d1 ,d2 ,...,dn }的文件频率:DF(Document Frequency ) TF(Term Frequency):?IDF(in

您可能关注的文档

文档评论(0)

diliao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档