基于聚类和神经网络的文章标题生成系统研究

来源 :上海工程技术大学 | 被引量 : 0次 | 上传用户:illjyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络中的文本信息资源呈现指数级增长,同时这其中也包含了大量不规范的文本信息,例如互联网中大量无标题的微博以及众多自媒体平台的“标题党”文章等,为这些不规范的文本生成一条能够直观准确体现主题内容的文章标题成为一个具有挑战性的工作。如果采用传统的人工总结、编写方法,则会产生巨大的工作量,耗费大量的人力、时间成本。在工程应用中,自动文本摘要技术为生成一条准确、简洁、切合原文的文章标题提供了一种经济、高效的解决方案。文章标题生成任务是以文章内容作为输入,以文章标题作为输出的一种文本摘要任务的变体,是自然语言处理领域重要的研究方向。但是,与英文语系的表达相对简单所不同,中文的语法规则独特且词性变化多端,这些因素影响了中文标题生成的准确性且容易发生“未登录词”问题,因此有关于中文标题生成的研究相对较少。以此为背景,本文基于生成式自动文本摘要技术对中文文章标题生成系统进行了研究。本文的主要工作分为以下三个方面:(1)融合中文词性共现关系的词向量模型Mul-CBOW的研究首先在文本向量化表示方面,考虑到中文独特的词性变化,提出了一种融合中文词性共现关系的词向量模型Mul-CBOW,在不同词向量模型上的标题生成实验证明Mul-CBOW模型可以在一定程度上提高生成标题的流畅性。(2)基于聚类和神经网络的文章标题生成模型TGMCN的研究其次为了使生成的标题更加符合人类的编写习惯,将DBSCAN聚类算法与带有注意力机制的编码器-解码器标题生成网络模型相结合,提出一种基于聚类和神经网络的文章标题生成模型TGMCN。同时基于原文内容构建文章先验分布词典来缓解“未登录词”问题,优化TGMCN模型的标题生成效果。在LCSTS数据集上的测试实验表明,TGMCN模型的ROUGE-1和ROUGE-L评价指标分别提升至35.43%和30.95%,证明TGMCN模型可以有效提高生成标题的准确性、流畅性。(3)文章标题生成原型系统的设计与实现最后在上述研究的基础上,设计并实现了文章标题生成原型系统,并对系统功能进行了详细展示,证明了标题生成原型系统的有效性。
其他文献
明初至清中叶闽南地区东南亚移民从寓居到定居有一个过程。闽南人出洋一开始并不是抱着移民的心态前往东南亚,但却在压冬和等待货物销售的过程中暂居海外,一部分人便因为国内政策、殖民地政策和社会文化原因等转化为在海外定居下来的华侨。族谱中关于谋生与迁地的论述体现了族人从迁居到定居的过程。泉州谱牒华侨史料记载了大部分出洋子孙葬在海外不归的情况,体现了闽南人在东南亚定居的普遍性。从明初至清中叶闽南地区东南亚移民
轨迹跟踪控制是无人驾驶赛车的关键技术,论文针对双电机独立驱动无人驾驶赛车在轨迹跟踪控制方面展开研究,同时考虑到双电机独立驱动的优势,又进行了双电机独立驱动辅助转向控制技术的研究,研究的成果对无人驾驶赛车轨迹跟踪控制这一关键技术提供理论基础和技术支持,对无人驾驶汽车研发具有一定的参考价值。论文在国家自然科学基金项目(51675257)、辽宁省高等学校创新人才项目(LR2016056)资助下展开研究,
《颇罗鼐传》是由多喀次仁旺杰创作的一部传记文学作品,主要叙述了17、18世纪西藏政治舞台上的著名人物颇罗鼐的生平事迹,该传记依藏族传记文学的结构形式先赞扬祖辈,其次是
水是人类生命之源,然而水资源污染和短缺的问题也日趋严重,水污染的最大源头之一就是生活污水。近年来,我国生活污水排放量逐年攀升,到2018年,我国生活污水排放总量就达到了620.0亿吨,占废水总排放量的78.0%。开发出能高效处理生活污水的技术符合当前时代发展趋势。微纳米气泡技术已经成为近些年的研究热点之一。微纳米气泡具有普通气泡所没有的特点,例如气泡直径小、水中停留时间长、具有较强的氧化性等。本文
为了研究大庆敖古拉—哈拉海地区萨葡高油层油气分布规律和指导其油气勘探,在有效烃源岩发育及分布、断裂凸面脊发育及分布和连通砂体发育及分布研究的基础上,通过有效烃源岩区与断裂凸面脊空间配置关系分析,对源断空间配置进行研究;通过源断空间配置运移油气有利部位与连通砂体的空间配置关系分析,对源断砂空间配置进行等级划分,划分为差、较好和好3个等级。然后结合大庆敖古拉—哈拉海地区油气分布规律,研究源断砂空间配置
近年来,随着信息技术的快速发展,智慧交通系统成为未来交通发展的主要趋势。在智慧交通领域,有两个问题值得关注:(1)交通拥堵问题以及(2)交通模式识别问题。交通拥堵和事故对经济、环境等方面都产生了巨大的影响,造成了巨大的损失。在这样的背景下,需要对影响道路拥堵的原因进行分析,从而指导城市交通的基础设施设计以及建设,降低道路拥堵以及交通事故的发生率。交通模式识别是智慧交通领域的另一个重要问题。在微观层
《新民丛报》是由梁启超创办的影响力最大的报刊,对清末立宪思想的发展起到了至关重要的作用。甲午战后,新知识群体兴起,国内报业迅速发展,《新民丛报》的创刊为立宪思想的宣传提供了重要的舆论阵地。《新民丛报》与《民报》双方围绕着立宪思想的理论学说、立宪所需的“国民程度”以及种族革命与政治革命能否并行这三个主要问题进行了全面的论战,这场论战不但引发了立宪派对于立宪思想更深层次的思考,同时也使立宪思想通过论战
近年来,随着机器人产业的发展与成熟,具有高自主性和灵活性的移动机器人成为了各领域的热门研究方向。即时定位与地图构建技术是使移动机器人实现自主行走于作业的关键性技术。SLAM的核心部分是指机器人在未知环境中仅使用自身传感器采集的信息实现位姿估计与增量式地图的构建的过程。其中,视觉SLAM区别于采用激光和声呐的传统SLAM技术,有着价格低廉、环境适应性强等优点,现已被广泛地运用到各个SLAM技术的涉及
十九大报告指出,要动员全党全国全社会的力量,坚持精准扶贫、精准脱贫,要将扶贫与“扶志”、“扶智”相结合。“精准资助”理念是“精准扶贫”在高校语境中的延伸与拓展。如何在“精准资助”的思路下真正实现对高校经济困难生的实际帮扶,保证高校勤工助学工作切实解决贫困生贫困问题,是当前我们面临的扶贫领域内的新课题。本文以“精准资助”为视角,分别从“精准资助”的三个子概念“精准识别”、“精准帮扶”“精准管理”对华
我国所实行的传统粗放型经济增长方式带来了经济快速发展的同时,也带来了一系列严重的环境污染问题。党的十九大工作报告明确指出,中国经济已经由高速增长阶段步入到高质量发展的新阶段。而对我国现有产业具有的结构进行优化升级是推动我国经济由粗放向精细化转变的重要动力,也是为我国经济的长期平稳健康发展保驾护航,亟需有效借助绿色金融的力量和突出优势。在目前的发展现状之下,深入剖析绿色金融对我国经济由粗放向精细化转