论文部分内容阅读
文本挖掘是指从文本数据中抽取隐含的、未知的、有价值的知识的过程。文本趋势挖掘是文本挖掘的一个重要分支,旨在发现文本信息中隐含的趋势规律。科技文献趋势挖掘对研究人员具有重要意义,它有助于科研人员把握学科整体结构及发展现状,从而帮助研究人员做出合理科技决策。本文重点研究科技文献趋势挖掘的相关技术及改进方法。
本文对科技文献趋势挖掘技术的现状和发展状况进行了简要的回顾,介绍并比较了几种常用的科技文献趋势挖掘方法。这些方法之中,关题词共现分析法相较科技文献趋势挖掘的其它方法而言具有及时性、客观性等优点,然而也存在着挖掘深度不够、稳定性不高等缺陷。本文研究针对该方法存在的这些缺陷,从技术和结构上进行改进。基于此,论文主要进行了以下研究:
首先,本文提出了多层面趋势挖掘模型。传统的基于关键词共现分析的科技文献挖掘方法主要是以可视化的方式展示某时间段内学科主题整体分布情况,通过对比不同时间段里学科主题的变化笼统地分析学科领域内研究主题的整体发展趋势,缺少对具体研究主题的发展趋势的认识。本文提出的趋势挖掘模型从宏观和微观两个层面分析研究主题的变化趋势,宏观上主要针对研究领域总体态势分析,微观上分析具体科技主题的发展状况。
其次,本文针对该方法精确度不高的缺陷,做出了进一步的改进。结合客户关系管理模式中的RFM模型,论文提出了一种二阶段趋势挖掘模型,用于分析具体科技主题的内部走势。论文从关键词类团组成变化、关键词类团向心度变化等多个方面分析主题的变化趋势,总结出研究主题发展的一般规律。
此外,本文提出从作者、研究机构、被引关系多个维度对科技文献的发展趋势进行判断,从而弥补了传统的关键词共现分析法判断依据过于单一的缺陷。研究发现在科技主题发展的不同阶段,与之对应的作者、研究机构、被引关系呈现不同的特点。
最后,使用中文信息学报语料和中国图象图形学报语料对本文提出的基于关键词共现分析的改进方法进行了实验,并对实验结果进行了比较和分析。实验结果证明了方法的正确性。