GB/T 13715-1992信息处理用现代汉语分词规范.pdf

  • 318
  • 0
  • 约1.9万字
  • 约 12页
  • 2019-06-14 发布于四川
  • 正版发售
  • 现行
  • 正在执行有效期
  •   |  1992-10-04 颁布
  •   |  1993-06-01 实施

GB/T 13715-1992信息处理用现代汉语分词规范.pdf

  1. 1、本标准文档共12页,仅提供部分内容试读。
  2. 2、本网站所提供的标准文本仅供个人学习、研究之用,未经授权,严禁复制、发行、汇编、翻译或网络传播等,侵权必究。
  3. 3、本网站所提供的标准均为PDF格式电子版文本(可阅读打印),因数字商品的特殊性,一经售出,不提供退换货服务。
  4. 4、标准文档要求电子版与印刷版保持一致,所以下载的文档中可能包含空白页,非文档质量问题
查看更多
计3E 中华人民共和国国家标准 GB/T 13715-92 信息处理用现代汉语分词规范 Contemporary Chinese language word segmentation specification for information processing 1 992-1 0-04 发布 1 993-06-01 实旋 国家技术监督局发布 中华人民共和国国家标准 信息处理用现代汉语分词规范 GB/T 13715- 1992 Centemporary Cliincsc iMnicungc word segmentution specification fnr information processing 1主竈内容与适用范IE 1.1主闕内容 本規范规崔了现代汉in的分词原则,以擴足信息处理的需要.它对汉语信息处凤的规范化,对各种 汉讲信息处理系炕之闻的兼容性有重賽的作用. 12适用范旧 木規也适用于汉语佶息处理各匆域,浜他行业和有关学科可以参考使用. 汉语信J处理务賴域可以根据其专门幣求 ,进一步补充和细化本规范的放定. 2引用标准 GB 12200汉语倍息处理词汇 3术语 U 卜术语引自GB 12200. 3-1 汉语信息处埋 用什算机対汉语的音形 、文尊信息进苻的处理. 3-2词 廉小的崑独立运用的语斉瑕位》 3 3词组 由两个或两个以匕的问.按一定的谥法规则姐成.表达一定意义的语古单付. 34分词敏位 汉语侑息处理使用的、具有确宦的语义或语法功能的$本单位.它包括本规范的现则限定的词和词 组. 3- 5汉语分词 从信£1处理需要出发.按•甲符斥的规范,对汉语按分词单位进仃划分的过程. 4 ◎述 本規也以信总处用应用为目的 ,恨据现代汉语的待点及•现律 ,规定现代汉语的分词原则。 本規拒用下划钱”______ 作为分词单位你记. 4- 1空桥或标点符号是计算机中分词单位的分PS标记.作为分隔标记的标点符号有:句号,逗号,侦号. 分号、日号、间号、叹号、刖号、括号、破折号省略号 、书名号,何隔号、连接号及符号等. 4.2二t或三t呵•以及结合填带、悄用穆定的一字或三字呵组.一沌为分凤单位 。例如: 回凉换术监會局1992-10-04批准 1993-06-01 实施 GB^T 13715 1 的2 发展 町鱼 红血 对不起自行车青 4-3列宁成语一律为分诃单位.例如; 熨直成竹欣欣向栄 四字词或结合緊蔭、使用強定的四审词始•一律为分词单位.0Jta, 社会主义侔夏秋冬由此町见 L.L五字或五字以上的诡君、恪古等.分开麻如不违背原有组合的杠义,应F切分.佻如: 时间就丘生命 失敢是成功之母 △心査,泰也翌 结合案密、使用艳定的词组•分开后如均肯尺有俎合的意义•或够响进-步的处理 ,则不于切分.例 如: 不音三七二十一 4-5惯用语和有转义的词或词爼 ,在转文的语古环境 「-•律为分词单位.例如: 扫女能顶半边夭 他真小V.象亍铁公码 4.6路语一律为分词鼠悅.例如; 科技臭运会工农业 Z.7分词4位加形成儿化音的 “儿” ,一牡为分词单代.籾如: 花儿悄悄儿玩儿 4- 8在现代汉语中出理的齐汉字符号.例如英他语育的宇符申.数学符号、比学符号、阿投伯數了等,仍 保鮒原有形式.例血】 CAD CC : = cm 】247 1 298 576 3. 14 C9现代汉谱中其他语吉的汉孑音译外来词•不予切分.ft$D. 巧克力 占普 4.10不同的语吉坏境中的同形异构现象,按昭具体语言环境的语义.根据本戏也的規

文档评论(0)

认证类型官方认证
认证主体北京标科网络科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91110106773390549L

1亿VIP精品文档

相关文档