论文部分内容阅读
随着国家对创新发展重视程度日益增加,各类期刊数据累积量亦不断增长,对其进行分析并挖掘有效知识对期刊业自身评估、作者评估、文章质量评估等方面具有重要意义。文章以为期刊决策提供参考为研究最终目的,提出基于分类词典的文本相似度量方法和基于关键词的期刊文本主题提取方法,以上述两种方法为主要研究方法,结合数据挖掘领域中的文本相似性度量、聚类和分类方法完成期刊决策参考研究。针对现有基于语义知识规则分析的文本挖掘存在时间复杂度高的局限性,提出基于分类词典的文本相似性度量方法。以现代汉语分类词典作为语义知识库,在已有语义相似度量方法的基础上对词语相似度量方法进行改进,选取其他基于语义知识库的文本相似度量方法对比该方法,通过聚类与分类实验对相似度量方法结果进行验证,证明了该方法的合理性。方法采用分类词典作为知识库,分类词典相较于词林和知网收录了更多的词语,词语编码匹配成功概率更高,对文本相似性度量影响较小;计算过程中仅在词语编码匹配一个阶段访问知识库,提高了基于语义知识库方法的时间效率;改进了词语相似度计算方法,计算结果优于其他基于语义知识库的方法。针对目前文献分析领域研究者普遍采用统计学方法对文献进行分析这一研究现状,采用基于语义知识库的文本相似性度量方法与基于关键词的期刊文本主题提取方法对期刊论文进行知识发现。以基于分类词典的相似度量方法为理论基础,以创新研究某期刊2007~2016年所有被引文献为研究对象,通过AP聚类对文献进行多次聚类,根据聚类层次对各类别进行关键词聚类、主题词提取和替换,并将最终主题提取结果以主题树的形式呈现。对主题提取结果构建主题树,直观展示主题提取结果,且研究对象主题框架清晰明了;以文献关键词作为文献主题,一定程度避免了文献中提取的词语不能表达文献主题的局限;采用基于语义词典的词语相似度量方法,一定程度减少了同义词导致的误差。在以上述两种理论方法研究的基础上,从期刊论文主题分析、引文-参考文献相关性、组织/基金-主题等方面对目标期刊进行深入分析,旨在为期刊决策提供一定的参考。期刊决策参考研究中,对2011~2016年目标期刊研究主题进行提取总结分析,对不同年度期刊的主要研究主题及年度期刊研究主题变化趋势可以清楚掌握;以词语相似度量为依据对引文-参考文献相关度进行测算,对期刊参考文献相关度进行大体了解,在提高期刊录用论文的被引用率的同时保障引文自身引用其他论文的质量;对期刊基金/机构发文进行分析,得出不同机构/基金发文的被引频次和主要研究主题等研究结论,对期刊论文录用和论文审稿等方面提供一定的决策参考。