2MetaMap的文本映射的基本原理.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2MetaMap的文本映射的基本原理.doc

MetaMap的文本映射原理及其对检索效果影响的研究 摘要 MetaMap是文本到UMLS超级叙词的映射工具。本文在对MetaMap的基本原理进行分析的基础上,利用自动文本检索系统SMART对经MetaMap映射的NLM文本测试集进行检索,分析MetaMap对检索效果的影响,并对其存在问题进行了简单分析。 关键词 MetaMap 一体化医学语言系统 超级叙词 文本映射 查准率 查全率 Study on the Principle of Text Mapping and Effect on Information Retrieval of MetaMap Abstract MetaMap is a tool of mapping text to UMLS metathesaurus.Based on the analysis of the principle of text mapping of MetaMap, the paper analyze the recall and precision of the NLM text collection mapping to UMLS metathesaurus by MetaMap in SMART. At last, The author analyze the problems of MetaMap. Keywords MetaMap, UMLS, metathesaurus, text mapping, recall, precision 1 引言 随着检索向终端用户的发展,自然语言检索已成为必然趋势。但由于自然语言与语义概念并非简单的一一对应关系,因此如何在不增加用户检索负担的基础上提高检索效率,一直以来都是人们致力研究的问题。自动地确定文本中所涉及的概念,即有效地将自由文本映射 到相应概念,是提高检索效率的一个途径[1]。在生物医学信息领域,许多研究人员已经开发了一些映射自由文本到MeSH或UMLS生物医学知识源的工具,包括MicroMeSH、Chartline、 Clarit、Saphire及MetaMap等。它们已经在实践中得到应用,并且已经取得了不同程度的成功, 这主要取决于它们对诸如解析、词汇变化和对词义模糊的清晰化等自然语言处理问题的解决程度。MetaMap在文本映射中以其语言学的精确性和依赖于知识源(SPECIALIST? lexicon,专家词典)而著称。本文通过实例对MetaMap的文本映射的基本原理进行描述,并对MetaMap对信息索检效果的影响进行研究,进而对其存在的问题进行分析。 2 MetaMap的文本映射的基本原理 2.1 MetaMap文本映射的过程 MetaMap的自动文本映射过程主要包括下列步骤[2]: (1)文本解析:将文本解析成名词短语,并对每一短语执行下列步骤; (2)变量产生[3]:产生名词短语的变形词(下称为变量),变量实质上是包括名词短语中的一个或多个单词及它的拼写变化、缩写、首字母缩写、同义词、屈折词缀和派生词缀的变化以 及它们的有意义的组合; (3)入选叙词[4]:形成包括变量之一的所有Meta入选词串集; (4)对入选叙词赋值[5]:对于每个入选的词串,计算该词串对名词短语的映射并利用赋词功能计算映射强度,按映射强度对入选词串排序; (5)映射构造:围绕名词短语的非相关部分组合入选词串,再计算基于组合入选词串的匹配强度,并选择那些最高得分的,组成一批对原始的名词短语的最佳Meta映射。 2.2 名词短语的变量 Meta映射算法始于计算每个由解析器发现的名词短语的变量发生器。变量发生器是名词短语中任何有意义的单词或出现在专家词典中的词串。例如,名词短语liquid crystal thermography的变量发生器有liquid crystal thermography、liquid crystal、liquid、crystal和thermography(介词、限定词、连接词、辅助词、情态词、代词和标点被忽略)。本文中应用的一个简单例子是名词短语ocular complications,它的变量发生器是ocular和complications。 处理变量采用的是一个规范化的方法。简而言之,该方法是指一个变量不仅代表该词本身,也代表所有它的屈折变化和拼写变化。Collapsing inflectional and spelling variants results in significant computational savings.处理过程如图1所示。对每一变量发生器的处理过程如下: 图1:变量产生过程 (1)计算变量发生器的所有首字母缩写/缩写和同义词,如图三个加黑框所示; (2)通

文档评论(0)

zcbsj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档