论文部分内容阅读
信息过载是当前互联网信息时代值得关注的一大问题,从海量信息中快速抽取、提炼出关键的信息就显得尤为重要。而科技文献作为科技创新知识的主要载体不仅增长迅速,且具有多源分布的特点,如图书、论文、专利与会议文献等作为主要的科技文献,其不同类型的特点使得它们提供了关于同一主题不同角度的描述。所以在科学研究中,从不同源的科技文献中识别挖掘科研热点对于开展下一步的科研工作具有指导意义。所以本文目的就是通过本研究提出的模型方法,对蕴含在多源文本中的主题进行更有效的识别以分析学科热点,为科研创新提供支撑服务。本研究首先采用文献调研法,辨析了科研热点和科研主题概念的基础上,对国内外科研热点识别的主要方法和主题模型的研究进展进行调研,针对具有代表性的研究成果进行总结与述评,梳理了当前进行科研热点识别分析时的专家法、引文分析法、知识单元分析法、图谱分析法和文本挖掘法五种方法,并对主题模型的理论探索现状和其在科研热点识别中的应用研究现状进行了总结。然后在此基础上基于模型研究法,提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合了LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。同时为了验证本文方法的有效性,利用实验分析法、统计分析法等,以机器学习领域的科技文献为例,获取期刊论文和专利文献的题名及摘要数据进行融合以作为实验数据源,一方面利用模型困惑度(perplexity)和主题一致性(topic coherence)两个指标对LDA2vec与LDA在多源文本背景下的主题提取效果进行对比,另一方面对本研究的方法在多数据源和单一数据源的环境下主题提取效果进行观察对比。经过实验,结果表明本文提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的且在一定程度上有效果的提升。该方法相对来说能够更加合理、准确地识别出多数据源文本中的热点内容,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。