论文部分内容阅读
近年来,随着互联网的快速发展,信息呈爆炸式增长。现代人快节奏的生活催生了快速阅读。用户如何从大量的文本信息中更精准快捷地获取信息是信息学科研究的热点。自动摘要技术是解决这一问题的有效手段。简明扼要的文本摘要是一篇文本的核心内容,能够帮助人们高效地挖掘主要信息。
本文首先分析了国内外关于自动文摘的研究现状。自动文摘技术分为机械文摘和理解文摘两个大类。目前的摘要技术存在以下两个难点:①机械文摘方法无法充分利用文档的语义信息。②理解文摘无法对长文本的语义信息进行整合。基于本体具有语义完备性和可推理性,提出一种基于领域本体的自动摘要方法。然而领域本体的构建依赖领域专家,因此大大降低了该方法的通用性和扩展性。
针对领域本体的人工依赖问题,提出了一种领域本体自动构建的方法。
通过上述分析,本文的主要内容如下:
①构建领域本体概念集。通过从网络知识库获取与“自动文摘”相关的科技文献作为领域本体的原始训练语料,采用TFIDF算法提取“自动文摘”领域的相关关键词。同时训练一份词向量模型Word2Vector对同义词进行实例集的映射。
②获取领域本体的关系。根据保留的概念,结合现有的知识图谱进行筛选剪枝等操作,获取领域本体的层次概念间关系。结合FP-Growth算法从近年来的领域文本中挖掘领域的概念间关系,增加领域本体的语义覆盖面和时效性。
③构建推理规则库并且调用Jena推理机对文档句子映射成的RDF三元组进行语义推理。提高文本映射结果的语义准确度。
④为验证本方法提取的摘要句子来自各文档、各段落的分布情况,提出了一种针对摘要覆盖率和均匀度的评价指标。
以ROUGE作为文摘质量的评价指标进行了一系列实验:实验表明基于领域本体获取的文档摘要质量高于传统摘要方法;且使用该方法获取的多文档摘要的评价值较于单文档摘要高15%以上。通过对均匀度的计算结果表明,本方法获取长文档的摘要的信息分布均匀度更高。
本文首先分析了国内外关于自动文摘的研究现状。自动文摘技术分为机械文摘和理解文摘两个大类。目前的摘要技术存在以下两个难点:①机械文摘方法无法充分利用文档的语义信息。②理解文摘无法对长文本的语义信息进行整合。基于本体具有语义完备性和可推理性,提出一种基于领域本体的自动摘要方法。然而领域本体的构建依赖领域专家,因此大大降低了该方法的通用性和扩展性。
针对领域本体的人工依赖问题,提出了一种领域本体自动构建的方法。
通过上述分析,本文的主要内容如下:
①构建领域本体概念集。通过从网络知识库获取与“自动文摘”相关的科技文献作为领域本体的原始训练语料,采用TFIDF算法提取“自动文摘”领域的相关关键词。同时训练一份词向量模型Word2Vector对同义词进行实例集的映射。
②获取领域本体的关系。根据保留的概念,结合现有的知识图谱进行筛选剪枝等操作,获取领域本体的层次概念间关系。结合FP-Growth算法从近年来的领域文本中挖掘领域的概念间关系,增加领域本体的语义覆盖面和时效性。
③构建推理规则库并且调用Jena推理机对文档句子映射成的RDF三元组进行语义推理。提高文本映射结果的语义准确度。
④为验证本方法提取的摘要句子来自各文档、各段落的分布情况,提出了一种针对摘要覆盖率和均匀度的评价指标。
以ROUGE作为文摘质量的评价指标进行了一系列实验:实验表明基于领域本体获取的文档摘要质量高于传统摘要方法;且使用该方法获取的多文档摘要的评价值较于单文档摘要高15%以上。通过对均匀度的计算结果表明,本方法获取长文档的摘要的信息分布均匀度更高。