论文部分内容阅读
随着信息技术的发展,Internet已经成为一个庞大的信息源,据统计,在这些信息源中80%以上的信息是以语言文字为载体的,如何通过对这些海量的Web文本进行分析挖掘,从中获得有价值的信息是中文信息处理领域面临的一个重要问题,自动挖掘出能准确代表文本意义的关键词,是一种解决信息危机的有效方案。
本文在研究了国内外关于关键词挖掘技术的基础上,提出了一种基于词汇网络模型的关键词挖掘方法,主要研究的内容包括以下几个方面:
汉语词语相似度方面,总结了目前广泛应用的汉语词汇之间的相似度计算技术和方法,基于此而后引入义项词袋的概念来计算具体语境下词语之间相似度值。
文本表示方面,在关键词挖掘中的文本图模型基础上,本文提出了一种以汉语词汇语义相似度为依据来构建文本的词汇网络图模型的方法,将一篇文本映射为一个词汇网络,解决了VSM模型在表示文本时的高维度问题,同时词汇网络可以从语义层次表示文本。对词汇网络的研究发现语义相似度阈值对词汇网络的特征有重大影响,实验也验证了基于语义关系的词汇网络具有小世界特征。
关键词挖掘方面,借助复杂网络理论和以及相关统计因子来研究表示成的词汇网络,提出了一个综合衡量词语节点重要性的测度,利用这个重要性测度来对每一个词语打分从而挖掘出文本关键词。该方法挖掘的关键词能从语义层次反映文本主题,同时与领域无关,对不具有复杂网络特性的文本仍可以有效的挖掘出关键词,在挖掘文本关键词基础上,利用《知网》进一步从语义层次形成文本主题。
为了验证算法的有效性,开发了基于词汇网络的关键词挖掘系统,同时从语料库中选取各类文本进行了实验测试,实验结果表明基于词汇网络的方法明显优于词频-倒文档频率(TF-IDF)和单纯的复杂网络特征方法。