- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R七种武器之文本挖掘包tm 01.pdf
R七种武器之文本挖掘包tm 第1课
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪
人类语言的复杂性
? /browse/families
? /wiki/%E8%AF%AD%E8%A8%80%E7%B3%BB%E5%B1%
9E%E5%88%86%E7%B1%BB
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪
自然语言处理与文本挖掘
? NLP=Natural Language Processing
? 机器学习的一个分支。目标是使机器能学习,识别,理解人类使用的自然语言(语音
,字符文字,图像文字等),具备使用自然语言与人类进行交流的能力
? 是目前机器学习领域最困难的技术之一,里面的难点大部分成为各个应用领域(搜索
引擎,情感识别,机器写作等等)的核心障碍,是实现高度智能机器人的关键技术
? NLP大部分方法适用于不同的语种,也有部分只适合特定语种
? 文本挖掘可以视为NLP的一个子领域,目标是在大量非结构化文本中整理析取出有价
值的内容,文本自动分类,判同,情感分析是比较常见的应用
? 炼数成金计划在2015年内开设有关自然语言处理和文本挖掘的大课,本课程算是预热
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪
经典参考书
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪
NLP所包含的内容
? 典型内容:词法,语法
? 关于词法的典型问题:分词,拼写检查,语音识别
? 关于语法的典型问题:词类识别,词义消岐,结构分析——词汇怎样组合在一起才是
正确的?
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪
语音识别
? 语音输入
? 语音指令
? 电话监听
? 语音生成
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪
分词
? 为什么要对文本进行分词?以搜索引擎为例
? 全文检索索引
? 分词算法
? 分词软件
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪
语种亲缘关系判别
? 梵语
? 匈奴人与匈牙利
? 吐火罗语
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪
OCR
? OCR= Optical Character Recognition
? 印刷体识别与手写体识别
? 字形析取
? 其它应用:车牌识别,名片识别
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪
文本分类
? 应用背景:百度新闻,谷歌新闻,自动门户,根据用户专业倾向的文档推荐
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师 黄志洪
文档评论(0)