基于关键词过滤和篇章结构的中文自动文摘研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:a0126051548
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息社会的发展,网络上的电子信息量剧增,如何准确及时地获取有效的信息变得越来越重要。文摘作为文献核心内容的概括,能够很好地帮助人们快速高效地挖掘有用信息,提高对信息的辨别和接收效率。因而,在自然语言处理的研究领域里,自动文摘技术成为这些年来的一个热点。本文首先介绍了文摘的定义与概念、自动文摘的国内外研究现状、主要研究方法和核心关键技术。然后针对自动文摘方法中较为重要的关键词提取环节,提出了基于Word2vec的关键词抽取策略,然后将关键词抽取应用于自动文摘研究中,提出了一种基于关键词过滤和篇章结构的自动文摘算法KS-TextRank:(1)通过Word2vec工具训练词向量模型,得到词语间的相似度,并利用相似度优化图节点的初始权值,进行同义词的归并,产生了更优质的关键词集,使得词语间的关联表现得更加全面,改正了传统关键词抽取方法对词语间关联度体现不足的缺点。(2)运用改进方法提取到的高质量关键词集,过滤掉候选文摘句子集中的不相关句,提高候选句子集的主旨关联度和精度。同时,依据句子本身位置信息和章节标题相似性等信息,优化排序算法的节点权值,提升自动文摘的质量。最后,本文采用人工采集并处理的论文语料和哈尔滨工业大学信息检索研究中心的单文档自动文摘语料,从原文摘要相似度、准确率、召回率、文摘均匀度等方面详细对比分析了三种文摘抽取方法。第一种是传统的TextRank自动文摘算法,第二种是采用共现窗口提取关键词的KS-TextRank算法,第三种是采用词向量提取关键词的KS-TextRank算法。实验表明,本文提出的KS-TextRank方法相比传统的TextRank算法,文摘质量有了显著提升,而且本文提出的基于词向量的关键词抽取方法也优于传统方法。
其他文献
中共中央、国务院印发了《乡村振兴战略规划(2018-2022年)》,并发出通知,要求各地区各部门结合实际认真贯彻落实。要牢固树立和践行绿水青山就是金山银山的理念,落实节约优先
一些水溶性聚合物可与表面活性剂相互作用而形成复合物,此类复合物在表面活性、界面性质、流变行为以及"软”材料的制备等方面都表现出了优良的特性,因而该类体系已被广泛地
本文利用溶胶-凝胶法结合气氛控制合成了含In2S3量子点玻璃。利用X射线粉末衍射仪(XRD),X射线光电子能谱(XPS),透射电子显微镜(TEM),X射线能量色散谱(EDX),高分辨透射电子显
扶贫领域中的形式主义问题影响脱贫质量,亟待破除。首先要反对官僚主义,破除责任落实迁移化,其次要杜绝主观主义,破除政策落实空转化,再者要谨防机会主义,破除工作落实形式化
情境感知计算是普及计算引发的新的研究领域.在分析情境感知计算系统模型的基础上,研究并改进了系统开发模型CTK,提出基于主动推理的系统框架ACTK,以智能家庭原型的实现证明
债务清偿期届满前的以物抵债协议,是指债权人和债务人在债务清偿期届满之前约定,当债务人未能按期清偿债务时,以债务人或第三人的财产折价归债权人,用于抵充债务。如抵充债务财产
学位
编者按 验收工作是军队物资采购的重要环节之一,它对于保障军队采购物资质量,保障军队需要发挥着关键作用。本文从科学技术不断发展,新技术、新材料、新工艺、新方法的不断运用,
报纸
随着我国经济的不断发展和经济结构的转型升级,小型企业与微型企业,尤其是科技型中小型企业和微型企业已成长为推动我国国民经济生产总值持续增长的重要力量。科技型小微企业
目的 调查分析空军新毕业飞行员的心理状况,为提高飞行员的心理健康水平、完善相应的心理卫生保障措施提供依据。方法 采用卡特尔十六种个性因素量表(16PF)和症状自评量表(SCL-9
习近平总书记在今年春节前夕来川视察时指出,“要按照党中央统一部署,把提高脱贫质量放在首位,聚焦深度贫困地区,扎实推进各项工作”“确保帮扶工作扎实、脱贫结果真实,使脱贫攻坚
报纸