论文部分内容阅读
经过学者和科研人员的不懈努力以及信息化技术的不断发展和普及,互联网上迅速积累了海量的科技大数据。不同于互联网上爆发式增长的新闻、社交等信息,科技大数据有其独特的一面。科技数据主要以论文和学者信息等具有学术风格的资源为主体构成,其数量庞大但数据的冗余信息少,具有专业性强但不同领域间差异性大的特点。在对科技资源进行检索查询时,一方面由于科技大数据的独特数据特性导致了传统的检索算法难以满足学者用户的需求。另一方面,科技大数据的多模态以及异构性对科技资源的获取与处理提出了更高的要求。基于这样的背景,针对多领域跨媒体科技大数据的高效检索查询研究具有非常重要的意义。本文完成的主要工作如下:(1)提出了多模态科技大数据深度特征提取与表示方法。针对科技大数据中的文本资源,提出了基于密集卷积注意力的特征表示(FR-DCA)算法,利用密集卷积结构结合双向LSTM循环神经网络进行文本特征的深度提取;针对科技大数据中的图像资源,从图像输入尺寸的不一致问题出发,提出了利用含有空间金字塔池化的卷积神经网络进行图像特征深度提取。实验结果表明,所提出的两种科技资源特征表示方法在精确率、召回率和F1值等指标上普遍优于对比算法。(2)提出了多领域跨媒体科技大数据的语义空间学习及分析方法。基于所提出的密集卷积注意力模型和引入空间金字塔池化的卷积神经网络模型,提出了基于语义约束的科技资源多模态对抗学习(MASC)算法。MASC算法通过对文本和图像的切割,充分提取细粒度上下文信息,引入语义约束函数进行对抗学习,对保持跨模态语义相关性的公共语义空间进行建模。实验结果表明,基于MASC算法的跨媒体检索相较对比实验各项检索评价指标均有比较明显的提升。(3)提出了多领域跨媒体科技大数据检索查询、预测及可视化方法。首先针对科研领域的学者影响力计算问题提出了基于学者合作关系和引文影响力融合的专家学者发现(CF-Rank)算法。CF-Rank算法通过学者合作关系图和论文引用关系图的融合进行学者影响力计算,实验结果表明该算法在覆盖度和人工评判指标上均优于对比实验。然后提出了基于时间窗口注意力的科研领域学者兴趣提取(IE-TWA)算法,IE-TWA算法考虑了时间因素对科研人员研究兴趣的作用,提出时间窗口注意力机制对学者短期兴趣进行表示,实验结果表明算法对于学者研究兴趣的预测具有很好的效果。最后结合两种算法设计了基于二次重排序的科技资源检索查询机制,实现了对科技大数据的高效、精准、个性化检索。(4)设计并实现了多领域跨媒体科技大数据高效检索查询系统。该系统包括多领域跨媒体科技大数据获取与特征表示、多领域跨媒体科技大数据语义学习、多领域跨媒体科技大数据检索查询、预测及可视化三个模块,充分验证了本文所提出的一系列算法的有效性和可行性。