论文部分内容阅读
随着信息技术的不断发展,大量的文本信息开始以计算机可读的形式存在,许多领域信息都呈现出爆炸式增长,因此如何在海量的信息当中,快速并准确地提取对读者有用的信息将是一个重要的课题。关键词提取就是一种解决上述问题的有效手段,关键词是对文章主题信息的精炼,使读者快速掌握该文本的重要信息,提高信息访问的效率,具有明显的现实意义。关键词提取是文本挖掘领域中研究的核心技术之一,起着十分重要的作用。信息的载体主要以文本为主,然而目前绝大多数文本信息还尚未提供关键词,同时目前存在的几种关键词提取算法,还无法很好解决多义词词义消歧、同义词冗余表达、构建的分类器训练过程中还可能存在过拟合、构建的词汇链不能准确表达文本语义结构等问题,为此本文提出了两种基于语义分析的改进方法,深入到语义层次,进一步挖掘出表达文本主题的潜在信息,提出的方法较好地解决了多义词词义消歧、构建的词汇链准确全面地覆盖文本主题信息等问题,同时避免了同义词冗余表达,尤其对同义词较多的文章效果更为明显。本文主要工作如下:1、基于语义词典和词汇链的关键词提取算法中文语义词典中《同义词词林》语义词典编码简单,比其他知识库拥有更为丰富且易于语义理解的同义词组的优势,同时词汇链很好地表达了文本的语义结构和多个主题信息。因此本文提出了一个完整的基于语义词典和词汇链的关键词提取算法KETCLC(Keyword Extraction based on Tongyici Cilin and Lexical Chain),通过分析《同义词词林》和词汇链的特性,将两者相结合并根据其结合的优势,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算改进的等处理来提高关键词提取的质量。2、结合语义扩展度和词汇链的关键词提取算法目前存在的构建词汇链的方法都是单纯采用语义相似度或者语义相关度计算词语间的语义关系,但是构建出来的词汇链不能准确全面地表达词语间的关联和语义关系,从而影响了文章主题表达的精确度和关键词提取的质量。因此,本文在KETCLC算法的实验验证基础上,提出了一个完整的结合语义扩展度和词汇链的关键词提取算法KESELC (Keyword Extraction based on Semantic Expansion integrated with Lexical Chain),基于《同义词词林》语义词典,从语义分析角度,计算语义相似度和语义相关度,并综合考虑两者得出语义扩展度及其计算方法,将语义扩展度和词汇链方法相结合进行关键词提取,有助于挖掘出出现频率不高但对文章具有重要贡献的词汇。对上述两种方法分别进行实验,实验结果表明,KETCLC算法和KESELC算法都能充分考虑语义知识,不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题,具有较优的提取质量。