作为人工智能分支的自然语言处理停滞的技术.pptVIP

下载本文档

5
0
约5.05千字
约 38页
2017-02-20 发布于上海
举报
版权申诉

作为人工智能分支的自然语言处理停滞的技术.ppt

1、本文档共38页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

作为人工智能分支的自然语言处理停滞的技术

作为人工智能分支的自然语言处理：停滞的技术赵海上海交通大学计算机科学与工程系 zhaohai@cs.sjtu.edu.cn 沈阳 2010.09.18 起源以人工智能的知识工程的角度来看待分析当前的自然语言处理技术。当前的自然语言处理被机器学习为代表的自动化数据挖掘技术所严重渗透。可将其归结为一种知识获得和学习分离的智能系统处理方法。忽略了基本的机器学习原则而导致低效的知识处理两个关联但是有区别的困境单一的数据挖掘方式的自然语言处理未能从根本上改变知识表示和知识获取的人工智能困难。以监督学习为代表的统计机器学习方法并不能带来真正的实用化的推广性能增长。我们的建议。内容自然语言处理中的机器学习技术的兴起被忽略的准则没有免费的午餐丑小鸭 Zipf律困境的实例学习性能增长根本来源是语料增长指数增长的语料带来线形的性能提升结语机器学习的兴起现代方法最大熵用于词性标注 Adwait Ratnaparkhi, Jeffrey C. Reynar, Salim Roukos. A Maximum Entropy Model for Prepositional Phrase Attachment. HLT 1994 机器翻译 Franz Josef Och, Hermann Ney. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation. In ACL 2002: Proc. of the 40th Annual Meeting of the Association for Computational Linguistics (best paper award), pp. 295-302, Philadelphia, PA, July 2002. CoNLL The Conference on Computational Language Learning (CoNLL-97) was held on July 11, 1997 in Madrid, Spain. Named entity recognition, chunking, semantic role labeling, dependency parsing, joint learning of syntactic and semantic dependencies, etc 机器学习方法的兴起中文处理 Bakeoff-1: 2003 分词 Bakeoff-2: 2005 分词，统一的机器学习方法 Bakeoff-3: 2006 分词，命名实体识别 Bakeoff-4: 2007,2008 分词，命名实体识别，词性标注为什么要机器学习样本比规则好定义规则会忽略低频情形语言的解释涉及的因素过多 Fernando Pereira Machine Learning in Natural Language Processing University of Pennsylvania NASSLLI, June 2002 为什么要机器学习机器学习降低了知识表示的难度！机器学习方法的特征标注数据：语料知识表示学习方法知识获取机器学习方法的特征机器学习针对于传统的人工智能。知识表示和获取的分离语料构建：专注于知识表示机器学习：专注于知识获取对比：专家系统规则的获取和表示是同步的。规则的管理是低效率的，困难的。机器学习和知识源从知识工程看待机器学习规则1 学习模型本身/特征体系规则2-n 标注语料学习模型学习模型的三要素目标函数：知识源特征体系：部分的知识源参数估计算法：与知识源基本无关机器学习：数据假定已有数据合理近似现实世界？拥有数据训练数据集（training set data）：训练测试数据（testing data）：评估验证集[validation set]：避免过拟合[overfitting]。真实数据（real data）：最终的检验学习模型并不重要定理：没有免费的午餐结论描述 by David Wolpert and William G. Macready 由于对所有可能函数的相互补偿，最优化算法的性能是等价的。没有其它任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优。该定理只是定义在有限的搜索空间，对无限搜索空间结论是否成立尚不清楚。参考文献 Wolpert, D.H., Macready, W.G. (1995), No Free Lunch Theo