基于TextRank的自动文摘算法的研究与应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:myqwe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的不断发展,越来越多的用户在各种网络平台上获取信息,使得网络上的各种文献资源呈指数上升趋势。在当前快节奏的生活中,为了让用户能够快速高效地获取感兴趣的信息,必须将长文本信息压缩成内容凝练的短文本。文本自动摘要生成技术就是通过训练自动摘要生成模型将长文本压缩成内容凝练的摘要。本文研究了传统TextRank模型和基于Word2Vec的TextRank模型,经过实验对比分析,总结了目前抽取式摘要算法的不足。针对长文本,本文在TextRank图模型中引入了目前NLP领域最新成果BERT模型,并结合K-Means聚类算法提出融合模型KMBTR,该模型可以有效提高抽取摘要的质量。本文的主要研究工作如下:(1)文本建模和相似度计算本文采用两种文本表示模型来对长文本建模。第一种是基于神经网络的Word2Vec模型,该模型通过提取文本的语义特征将文本向量化表示。第二种是基于预训练的BERT模型,该模型在训练阶段使用海量的训练语料以及更强的特征抽取器,可以抽取更深层次的语义特征,能够更准确的表示文本。本文对比了两种向量距离计算方法,余弦相似度能够更加准确的衡量两个句子的相似程度。(2)基于TextRank的自动摘要算法传统TextRank算法存在不足。一方面,通过计算文本间共现词出现的频率来衡量句子相似度,并没有深入挖掘文本的语义特征,效果不尽人意;另一方面,摘要冗余问题严重。通过研究传统的TextRank算法,本文采用神经网络模型Word2Vec将文本向量化,将句向量之间的余弦相似度值作为TextRank图模型对应边的权重,然后通过TextRank模型得到句子排名生成文本摘要,最终采用MMR算法对摘要进行去冗余处理。(3)改进TextRank自动摘要算法Word2Vec模型的网络结构比较简单,无法抽取更深层次的语义特征。为了进一步提升抽取摘要的质量,本文将目前最先进的自然语言处理模型BERT应用到自动文本摘要生成中。BERT模型对文本建模能够准确表达文本含义,提高TextRank算法权重的准确度,提升摘要质量。针对摘要冗余,本文引入K-Means聚类算法对长文本聚类,就可以在抽取摘要之前降低文本冗余信息。结合这两点改进思路,本文基于K-Means、BERT和TextRank提出了融合模型KMBTR并将其应用于视频会议纪要生成。
其他文献
学位
近年来,越来越多的人喜欢通过各种手机应用软件在互联网上发布和获取信息,这些信息主要以短文本的形式存在。短文本分为两类,一类是描述信息,通常涉及多个主题,比如一条知乎提问,可能同时关于“经济”、“文化”和“旅行”。为了利用智能化技术在分类展示、信息检索等领域提升用户体验,对这些短文本进行多标签分类具有重要意义。另一类表达主观情绪和意见,如商品评价、社会热点讨论等,这些短文本的情感极性分类对商家分析用
近年来,环境保护问题被日益提上日程,越来越多的行业逐渐向可持续、可再生的方向发展。莲杆由于没有得到广泛的开发和利用而被人们认为是农业废弃物,然而经研究发现,莲杆中的莲纤维作为一种新型的天然纤维素,不仅在医学上可用于制作纱布、止血带以及缝合线等,而且在纺织行业可用于制作衣物等,具有巨大的经济和应用价值。目前莲纤维的制备主要有化学法和人工法等方法,由于污染问题和人工抽丝的效率问题,无法满足工业化生产的
思维导图是一种非线性的思维可视化工具,它可以从色彩,图画,代码等多个维度出发,自然地表达和呈现人们的放射性思维;不仅如此,它还能够帮助人们更好的理解,记忆和发展创造性思维能,因此被广泛应用于诸多领域。这一被证明是符合认知规律的助记工具起初在国外的教育领域颇受欢迎,近年来在国内中小学的课堂上也受到越来越多教师的青睐。在英语的学与教中,听说读写四项技能的培养一个也不能少,而阅读恰恰是这些基本技能中能确
消化道疾病是人体内发病率仅次于呼吸道疾病的第二大疾病类,消化道的医学检查非常重要。传统的钡餐、胃镜、结肠镜以及B超等消化道图像采集方法都存在不安全、不舒适、检查部位不全面和图像不清晰等缺陷。胶囊内镜(WCE)是一种长约25mm,直径约11mm的消化道内窥镜,患者口服胶囊内镜之后,其能在消化道自然蠕动下拍摄消化道图像。WCE的优势非常明显,即图像采集过程不适感极低、图像清晰以及拍摄部位全面等。因此本
学位
我国拥有56个民族,民族文化繁荣。不同文化背景下生活的民族在生活习惯、认知特点等方面存在或多或少的差异。朝鲜族是中国少数民族之一,其民族特色浸入到了日常生活当中,包括一些风俗习惯和建筑特色等,其中也蕴含着丰富的物理元素。教育部办公厅印发的《全国民族教育科研规划(2014-2020)年》中强调了民族地区中小学理科教学资源建设与开发研究为民族地区中小学理科教学质量提升研究的重要内容。开发和利用朝鲜族民
当前我国海洋经济快速发展,随着“21世纪海上丝绸之路”以及“海洋强国战略”的逐步推进,海上船舶通信对高质量的多媒体业务需求不断增加。现有的船舶无线通信系统不仅数据传输速率较低,且大多互不兼容,只能基本满足海事活动的常规通信需求。为改善上述问题,满足海上无线通信多码率多码长需求,论文对多码率多码长多元低密度奇偶校验(Low-Density Parity-Check,LDPC)码进行了深入研究。从校验
初中阶段是初中生提高英语学习水平的关键学习阶段,初中生需要在初中英语课堂学习中了解英语词汇基础知识。初中生在学习过程中由于词汇不熟悉而造成英语学习兴趣不足。因此,
英语学习自我效能感和归因方式是影响学生英语学习的重要因素,英语学习自我效能感的不足以及不恰当的归因方式会直接影响英语成绩的提高。本研究采取调查问卷法和访谈法相结合的形式,以240名新疆乌鲁木齐市68中初二学生为研究对象,探索研究英语学习自我效能感及归因方式的发展特点,并探讨了初中生英语学习自我效能感、归因方式与英语学习成绩之间的相关性。具体回答以下4问题:(1)初二学生英语学习自我效能感和归因方式