论文部分内容阅读
随着科研人员数量的不断增长,学术文献也是与日增长,这就使得对文献分类具有十分重要的意义。应用于多领域文档集合的分类算法种类繁多,应用广泛,然而,诸如文本全是关于室内定位或者全是关于医学等这样窄领域的文献分类应用,是一个极其困难的任务。尽管在科学研究中发挥着很重要的作用,却没有得到很好的研究。本文的研究重点是针对SpringerLink窄域文献数据进行处理,提取出好的文本特征,并得到好的分类效果,主要工作如下:(1)本文在传统LDA分类模型的基础上,引入词向量表示,融合词向量语义,提出基于LDA和Word2vec特征扩展文本表示方法,分别从主题和词语上下文语义上学习特征。在“indoor location”和“computer science”文献语料下的实验结果表明,基于LDA和Word2vec的特征扩展分类性能明显优于LDA、LDA-w2v两种基础模型,其更加精细地表达了短文本语义信息,一定程度上克服了短文本稀疏问题和主题聚焦性差的问题,并且基于LDA和Word2vec的特征扩展分类本质上是一种半监督学习方法,无需大量标注语料集。(2)为了更好的解决主题聚焦性差问题,本文引入摘要提取算法,并结合特征扩展,提出基于摘要提取的Word2Vec-LDA特征扩展(Extract Word2vec-LDA Extended Feature,EWLDA-EF)文本表示方法。对“indoor location”和“computer science”文献语料进行分类实验,分类效果得到了提升。结果表明本文提出EWLDA-EF文本表示模型更好地克服了主题聚焦性差问题。(3)本文分析了验证集中正确和错误预测样本的置信水平分布,结合集成学习思想,提出了一种基于EWLDA-EF组合分类方法。实验表明,在“indoor location”文献语料下,当主题数为60时,EWLDA-EF组合学习模型的MicroF1指标达到了0.8355,相对EWLDA-EF模型提升了1.02%;在“computer science”文献语料下,在主题个数为40时,其MicroF1指标达到了0.8579,相对EWLDA-EF模型提升了0.99%。可看出,组合分类模型比单一模型效果更佳,说明使用组合分类模型进行提升分类性能或许是一个不错的思路。