论文部分内容阅读
随着信息技术的快速发展,互联网逐渐成为人们获取各种知识、新闻等信息的重要手段,科研工作者可以从各大期刊数据库、数字图书馆中获取需要的科技文献。目前现有的检索通常是基于词匹配的检索,在论文没有“类别”或“学科方向”标签情况下,直接检索到的论文可能与检索者的学科领域相关性弱,同时由于科技文献数量庞大,人工添加类别或学科标签是不现实的,需要研究为科技文献自动添加类别或学科方向标签的技术,作为文本聚类的重要步骤,特征提取的好坏直接影响着聚类结果。本文根据科技文献的结构规范、特征清晰等特点,设计了一种基于文档分布式表达科技文献聚类中特征提取算法,并将该算法应用到了科研服务平台中。本文的主要工作如下:1、设计了基于文档分布式表达科技文献聚类中特征提取的算法,具有以下特点:(1)依据科技文献的结构特点,将科技文献的线性结构按照文本长度分为短文本和长文本类型。(2)尝试在科技文献特征提取中采用文档分布式表达,将科技文献的不同模块按照文本类型进行相应处理。对于短文本类型分词过后直接使用文档分布式表达进行表示,而长文本则在分词后,再进行去停用词、特征提取,而后使用文档分布式表达进行表示。(3)各模块的向量采用拼接方式进行特征融合,最后采用Kmeans算法对文献集进行聚类。2、将基于文档分布式表达科技文献聚类中特征提取算法应用到科研服务平台中,主要工作如下:(1)数据自动化采集,实现了 CNKI、SCI、WorkingPaper、项目信息等网站的信息采集系统,收集了 300多万篇科技文献、1万条项目基金等。(2)科技文献标注,将论文中设计的基于文档分布式表达的科技文献特征提取算法应用到科研服务平台中,完成了 300万篇科技文献的类别标注。测试结果表明,本文设计的科技文献特征提取算法相比一般模型算法在平均性能上得到了 17%的提升,应用到300万篇科技文献的聚类中获得了很好地效果。