基于维基百科的多种类型文献自动分类研究-ChinaXiv.PDF

下载文档 降价啦

5
0
约4.18万字
约 10页
2018-10-18 发布于天津
举报
版权申诉
保障服务

基于维基百科的多种类型文献自动分类研究-ChinaXiv.PDF

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

总第10 期 2017 年第10 期基于维基百科的多种类型文献自动分类研究* 李湘东 1, 2 阮涛 1 刘康 1 1(武汉大学信息管理学院武汉 430072) 2(武汉大学电子商务研究与发展中心武汉 430072) 摘要: 【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题, 以提高文本分类效果。【方法】在特征扩展之前, 对TF-IDF 加以改进, 提出并使用一种新的特征选择方法CDFmax-IDF 获得候 1 选词集; 在使用维基百科进行特征扩展时, 通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关 v 系并进行融合得到词语间的语义相关度实现特征扩展; 针对扩展得到的特征, 提出一种改进的LDA 概率主题模 0 6 型wLDA 模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN 和SVM 三种分类器上实现分 3 类, 其marco-F1 和micro-F1 分别提升 1.6%-2.8%和1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互 1 0 联系, 比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结 2. 论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性, 提高了多种类型文献 1 的自动分类效果。 7 1 关键词: 多种类型文献文本分类特征选择特征扩展维基百科 0 分类号: TP393 G35 2 DOI : 10.11925/infotech.2096-3467.2017.0702 : v i X a 是不同类型文献之间对同一事物或主题使用不同的词 n 1 引言汇或特征进行描述、产生语义上的差异, 由此导致研 i h 多种类型文献是指包含了图书、期刊、网页、博究结果的不正确。例如, 网页中通常使用的“ 电脑”可 c 客等各种传统和当前流行的社交媒体等形式的文献。能被大数据分析为是与学术论文中的“计算机”不同的从信息管理领域来看, 数字图书馆是一种新型图书馆, 事物或主题。本文以自动分类为手段, 通过分类效果它既具有传统图书馆在信息整合、组织管理上的优势, 的客观比较, 找出解决多种类型文献之间语义差异的又同时可以对来自网络的新兴文本资源(如新闻网页、有效途径。并提出一种基于特征扩展的多种类型文献博客微博等)进行整理收集与分类管理[1]; 从大数据领自动分类方法, 通过解决不同类型文献间自动分类时域看, 其最大特点之一就是数据类型的多样化; 除了出现的特征不匹配问题, 从而消除上述的语义差异, 数值型数据之外, 还包含图书、期刊、网页、博客等提升多种类型文献自动分类的效果。形式的文本数据。因此, 不管是传统意义上的信息资 2 研究现状及意义源管理研究, 还是当下最前沿的大数据分析, 其对象都包括了多种类型文献。 2.1 研究现状以多种类型文献为研究对象时, 一个突出的问题面对高速增长的海量网络信息资源, 传统的手工通讯作者: 李湘东, ORCID: 0000-0001-9031-8482, E-mail: xli_xiao@。 *本文系国家社会科学基金项目“多种类型文本数字资源自动分类研究”(项目编号: 15BTQ066)的研究成果之一。