基于机器学习的文献挖掘算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jizhe621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科研人员数量的不断增长,学术文献也是与日增长,这就使得对文献分类具有十分重要的意义。应用于多领域文档集合的分类算法种类繁多,应用广泛,然而,诸如文本全是关于室内定位或者全是关于医学等这样窄领域的文献分类应用,是一个极其困难的任务。尽管在科学研究中发挥着很重要的作用,却没有得到很好的研究。本文的研究重点是针对SpringerLink窄域文献数据进行处理,提取出好的文本特征,并得到好的分类效果,主要工作如下:(1)本文在传统LDA分类模型的基础上,引入词向量表示,融合词向量语义,提出基于LDA和Word2vec特征扩展文本表示方法,分别从主题和词语上下文语义上学习特征。在“indoor location”和“computer science”文献语料下的实验结果表明,基于LDA和Word2vec的特征扩展分类性能明显优于LDA、LDA-w2v两种基础模型,其更加精细地表达了短文本语义信息,一定程度上克服了短文本稀疏问题和主题聚焦性差的问题,并且基于LDA和Word2vec的特征扩展分类本质上是一种半监督学习方法,无需大量标注语料集。(2)为了更好的解决主题聚焦性差问题,本文引入摘要提取算法,并结合特征扩展,提出基于摘要提取的Word2Vec-LDA特征扩展(Extract Word2vec-LDA Extended Feature,EWLDA-EF)文本表示方法。对“indoor location”和“computer science”文献语料进行分类实验,分类效果得到了提升。结果表明本文提出EWLDA-EF文本表示模型更好地克服了主题聚焦性差问题。(3)本文分析了验证集中正确和错误预测样本的置信水平分布,结合集成学习思想,提出了一种基于EWLDA-EF组合分类方法。实验表明,在“indoor location”文献语料下,当主题数为60时,EWLDA-EF组合学习模型的MicroF1指标达到了0.8355,相对EWLDA-EF模型提升了1.02%;在“computer science”文献语料下,在主题个数为40时,其MicroF1指标达到了0.8579,相对EWLDA-EF模型提升了0.99%。可看出,组合分类模型比单一模型效果更佳,说明使用组合分类模型进行提升分类性能或许是一个不错的思路。
其他文献
目的探讨急性胰腺炎致急性肾损伤及影响肾功能预后的相关因素。方法选取就诊于中国医科大学附属盛京医院诊断急性胰腺炎患者343人,85人无复查肾功能结果,余下258人。A组:肾小
<正>党的十九大描绘出全面建设社会主义现代化国家的宏伟蓝图,对金融工作提出了要深化金融体制改革,增强金融服务实体经济能力,提高直接融资比重,促进多层次资本市场健康发展
会议
景区语言景观标准化、规范化与国际化程度是当地政府语言服务质量与能力的重要体现,也是景区语言服务基础设施建设的重要组成部分。文章阐述了语言景观的概念,对哈尔滨市开放
为了研究黑云母花岗岩动态特性与强度准则的应变率效应,文章采用高压动三轴仪对不同应变率、不同围压下的试样进行动三轴压缩试验。结果表明:相同应变率下,随着围压的增大,岩
采用脉冲激光器在Q235钢基体表面制备了哈氏合金涂层和铁基非晶复合涂层,并利用扫描电子显微镜、X射线衍射仪、维氏硬度仪和电化学工作站等对涂层的显微组织、相组成、硬度及
我国刑法学中一直以来将共同犯罪人分为主犯、从犯、胁从犯和教唆犯四种,国外刑法学则在狭义的共犯里规定了教唆犯和胁从犯两种共同犯罪人。因教唆犯这一犯罪类型的特殊性使
文章对重庆涪陵万豪酒店客房层空调新风设计采用水平式送风方案及竖向式送风方案进行技术经济对比分析,从而确定该酒店客房的新风方案。
首先阐述了旧路的使用情况,而后详细分析了旧水泥混凝土路面沥青加铺层结构,最后列举了某项目,深入阐述了该方案的施工过程及要点,希望能够从根本上提高混凝土路面的综合性能
本文采用二次正交旋转组合试验设计,探讨了改良MS培养基中2,4-D、肌醇和激动素对陇鉴127和陕160小麦成熟胚愈伤组织诱导率的影响。结果表明,肌醇浓度对于小麦成熟胚愈伤组织
似乎一位郁郁不得志的飘飘欲仙的文人站在一篇废墟中在吟诵:春花秋月何时了,往事知多少。小楼昨夜又东风,故国不堪回首月明中。雕阑玉砌应犹在,只是朱颜改。问君能有几多愁,