论文部分内容阅读
随着信息时代的到来以及互联网的蓬勃发展,关键词作为对文本主题的高度概括,成为用户搜索信息必不可少的工具,如何快速有效地挖掘文本关键词成为现今研究的热点。而基于复杂网络的文本关键词提取作为最新的关键词提取方法,学者们对其的研究也十分热衷。本文将文本数据抽象为复杂网络进行研究与分析,并构建了关键词提取分析平台实现对文本关键词的批量自动提取,主要成果如下:1.总结了国内外学者对关键词提取的研究概况,主要介绍了不同领域对关键词提取的经典方法,并分析了各类方法的局限性;针对现有的基于复杂网络的文本关键词提取算法进行研究,详细介绍了复杂网络常用的节点重要性衡量指标,包括常用的统计参数和相关算法,并对其进行对比分析。2.考虑到词频对文本主题的重要性,提出“词频分享权重”的概念,继而提出了一种构建加权文本网络的新方法,将目标节点的词频值根据邻居节点对其的重要度贡献来分配给相应的连边,从而实现对网络的加权,改善了目前已有研究大多基于“词语在同一个句子中共现次数”为连边加权的现状。3.在构建的加权文本网络基础上,结合人类语言特性引入位置权重系数,基于PageRank算法提出了一种基于复杂网络的文本关键词提取算法LTWPR。利用该算法对采集的新浪新闻语料进行多类关键词提取实验,并将实验结果与两种经典算法进行比较,验证了该算法的准确性和有效性。同时从多方面说明LTWPR算法在挖掘文本的关键词方面表现优异,适用于大批量文本网络关键节点挖掘。4.开发了一个基于复杂网络的文本关键词提取分析平台,实现批量读入文本数据、批量输出文本关键词。平台具有界面简洁友好、操作便捷、可扩展性强的优势,能够较好地批量处理文本数据、仿真各类文本关键词提取算法并将结果与作者标注的关键词进行对比等功能。平台较好地集成了本课题的研究成果,有助于快捷直观地进行文本关键词提取研究,具有良好的工程实用性。