中文概念词典的研究与开发.pptVIP

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文概念词典的研究与开发

中文概念词典的研究与开发 刘 扬 北京大学计算语言学研究所 Nov 13, 2005 报告提纲 WordNet(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考 报告提纲 WordNet(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考 WordNet(WN)的理论与方法 从词法分析、句法分析到语义分析 语义分析 vs. 概念 vs. 知识本体(Ontology) 如何表征概念?语义分析、计算的基础在哪里? Princeton大学WordNet的理论与方法 概念:由同义词集(Synset)来表示,概念即同义词集 {教师、教员、老师、先生、师傅、师爷、孩子王、臭老九、阿姨、导师、老板} 知识本体:概念及概念之间多种语义关系,形成概念网络 一个高度形式化的、通用/跨语言的知识表示方法 HowNet 对词义的内涵式定义:意在定义,关注个体,建立在义素分析及格语法上 WordNet对词义的外延式定义:意在区分,关注系统,建立在词义系统结构分析上 比如,添加一个词的新义项/概念,只需…… 一个可以对语义进行分析、计算的基础,一个形-义系统 WordNet(WN)的理论与方法 WordNet(WN)的理论与方法 WordNet(WN)的理论与方法 WordNet(WN)的理论与方法 WordNet家族(WordNets)的发展 George A. Miller等人于1985启动语言工程 描述开放词类:名、动、形、副词概念 描述语义关系:同义, 反义, 上下位, 整体部分, 致使, 蕴涵, 属性 1997年PWN 1.6含99,642 个概念、238,442个语义关系 双语WN(bilingual WN) 、多语WN(multilingual WN) WN国际组织和国际会议(GWA02, GWA04, GWA06, …) Google上1,190,000项研究与应用WordNet的检索内容 目前,NLP领域最重要的公用语义资源 报告提纲 WordNet(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考 中文概念词典(CCD) vs. WordNet CCD: Chinese Concept Dictionary CCD作为一个双语WordNet 提供汉英双语的概念对应 可以直接复用现有的WordNet的理论、方法、技术 全球WordNet资源建设的组成部分 CCD不仅仅是双语WordNet 必须反映汉语的实际情况,对中文信息处理有切实帮助 对概念、概念关系的调整和发展 增添汉语特有的语义属性和特征 涉及对PWN的复杂结构的调整和规划 分类原则、概念粒度等 报告提纲 WordNet(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考 CCD研究与开发的实践 构造双语WordNet的难点分析 两类不同的知识体系和概念映射 大规模的复杂双子网结构(105概念节点、106语义关系) 双语词典如何演化 实用、高效的双语WordNet的构造模型 强调双语词典的演化 强调双语词典构造中的继承与转换(复用与调整) 模型特点 演化模型 通用的双语WordNet解决方案(与特定语言无关) CCD研究与开发的实践 实现演化模型的辅助构造软件 实现继承:WN语义信息抽取 上下位关系形成的树结构 树结构信息编码(例如“005001002”)的可计算性 优化搜索算法 二路扫描过程( two-way scanning process) 收集过滤编码过程( gathering, sieving encoding process ) 实现转换:可视化的、数据敏感的语义树及其操作 可用的语言资源与计算方法(内容的改变:机器+人工的方式) 词典:汉英、英汉、 现汉、词林、语法词典、语义词典、SUMO、HowNet 等 语料库:动态词汇语义知识获取,如共现与搭配、聚类等 可视化的、数据敏感的语义树及其操作(结构的改变:纯人工的方式) 节点添加、修改、删除 子树迁移 CCD研究与开发的实践 CCD研究与开发的实践 CCD与WordNet概念对应的3条语义原则 成词及词性原则 *the group following and attending to some important person {cortege retinue suite entourage} {随从 随员 左右 跟随 随行人员} 准确性原则 *a very attractive or seductive looking

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档