科技文献聚类中特征提取算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:averyhut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,互联网逐渐成为人们获取各种知识、新闻等信息的重要手段,科研工作者可以从各大期刊数据库、数字图书馆中获取需要的科技文献。目前现有的检索通常是基于词匹配的检索,在论文没有“类别”或“学科方向”标签情况下,直接检索到的论文可能与检索者的学科领域相关性弱,同时由于科技文献数量庞大,人工添加类别或学科标签是不现实的,需要研究为科技文献自动添加类别或学科方向标签的技术,作为文本聚类的重要步骤,特征提取的好坏直接影响着聚类结果。本文根据科技文献的结构规范、特征清晰等特点,设计了一种基于文档分布式表达科技文献聚类中特征提取算法,并将该算法应用到了科研服务平台中。本文的主要工作如下:1、设计了基于文档分布式表达科技文献聚类中特征提取的算法,具有以下特点:(1)依据科技文献的结构特点,将科技文献的线性结构按照文本长度分为短文本和长文本类型。(2)尝试在科技文献特征提取中采用文档分布式表达,将科技文献的不同模块按照文本类型进行相应处理。对于短文本类型分词过后直接使用文档分布式表达进行表示,而长文本则在分词后,再进行去停用词、特征提取,而后使用文档分布式表达进行表示。(3)各模块的向量采用拼接方式进行特征融合,最后采用Kmeans算法对文献集进行聚类。2、将基于文档分布式表达科技文献聚类中特征提取算法应用到科研服务平台中,主要工作如下:(1)数据自动化采集,实现了 CNKI、SCI、WorkingPaper、项目信息等网站的信息采集系统,收集了 300多万篇科技文献、1万条项目基金等。(2)科技文献标注,将论文中设计的基于文档分布式表达的科技文献特征提取算法应用到科研服务平台中,完成了 300万篇科技文献的类别标注。测试结果表明,本文设计的科技文献特征提取算法相比一般模型算法在平均性能上得到了 17%的提升,应用到300万篇科技文献的聚类中获得了很好地效果。
其他文献
随着激光自混合干涉(Laser Self-mixing Interference)技术理论研究的日趋成熟,其原理被广泛应用到振动、距离、微位移、速度等各种测量领域中。激光自混合干涉技术是指在激
量子关联是量子物理的核心,为量子信息的应用提供了主要的资源。不同于众所周知的量子纠缠,量子失谐在测量角度表示了一种新的量子关联。最近,在两比特系统中,基于两个互补基
产油微藻是生产生物柴油的重要原料,为了提高微藻细胞的含油量,需要对微藻的油脂积累和代谢途径进行探索。油体是细胞内油脂储存和代谢的重要细胞器,对它进行深入研究对提高
目前1:500大比例尺数字地形图的成图方法主要有电子平板法、草图法、编码法等,但每种方法都有一定的局限和不足,特别是在外业内业的效率上总是很难提高,为了弥补这些局限和效
本文研究了多传感器运动图像序列的融合。进行运动图像的融合时,需要准确地将多个原始带有运动场景的图像中的有用信息保留并适当地融合到单张图像中,使得其能扩大动态范围并
无网格 Garlerkin 法(Element-Free Galerkin Method,EFG)具有前处理简单、计算精度高、收敛快等优势,已在结构固体力学领域得到了广泛应用,但其计算量偏大、计算耗时等缺点
目标跟踪是计算机视觉领域中的一个富有挑战的基础研究课题,在视频监控、智能交通、人机交互、视觉导航、医疗分析等领域有着广泛的应用前景。目标跟踪旨在对视频图像序列的
随着在航空航天、国防科技和其他工业上对高效高功率的激光需求,致使具有高功率输出性能的激光器成为了一个重要的研究领域。半导体泵浦碱金属蒸气激光器(DPAL)因为其采用的
随着信息化和计算机技术的不断发展,海量信息不断涌现。针对信息的特征提取是机器学习算法的首要工作,也是最重要的工作。深度学习神经网络可以充分学习这些信息并得到深层特
近年,随着社会的进步,科技的创新,各种移动工具、互联网技术的迅猛发展,在现代工业、流行病、临床等领域,数据不仅仅是单一的被监控,而是对多维的数据流进行实时监控。其所产