【摘 要】
:
随着新浪微博、微信等社交媒体的崛起,互联网媒体及电子出版物代替了传统报纸等纸质出版物成为人们发布和获取信息的主要渠道。网络的飞速发展以及各种移动终端设备的流行促使网络电子文本信息的爆炸式增涨,如何从海量电子文本信息里快速汲取有效信息逐步成为研究热点问题,文本摘要自动生成技术正是解决这一问题的核心。文本摘要自动生成技术不仅仅可以提升获取信息的效率,更支撑了智能应答系统、网络舆论解析等上层应用的建设。
论文部分内容阅读
随着新浪微博、微信等社交媒体的崛起,互联网媒体及电子出版物代替了传统报纸等纸质出版物成为人们发布和获取信息的主要渠道。网络的飞速发展以及各种移动终端设备的流行促使网络电子文本信息的爆炸式增涨,如何从海量电子文本信息里快速汲取有效信息逐步成为研究热点问题,文本摘要自动生成技术正是解决这一问题的核心。文本摘要自动生成技术不仅仅可以提升获取信息的效率,更支撑了智能应答系统、网络舆论解析等上层应用的建设。目前该技术主要存在以下问题:(1)机器自动生成重复摘要词、语序杂乱、无法生成词表未登录词、训练模型在时模型退化;(2)在生成摘要的内容上,与原文的主题信息相关度不大;(3)机器生成的摘要词句不够多样丰富流畅。本文针对上述问题展开研究,主要工作如下:1)为了生成与原文主题信息相关度增强且与原文内容相关的文本摘要,本文提出了一个结合主题模型与seq2seq的基于双注意力机制的主题增强文本摘要生成模型(TA-TSG)。TA-TSG模型先采用双向长短期记忆网络(LSTM)单元作为编码器,接着通过Twitter LDA模型提取文本主题词分布并获取主题词汇表作为额外先验知识输入模型,使得输入的原文序列和生成的摘要序列同步主题信息,保证摘要内容相关性的同时增强主题相关。本文采用CNN/Daily Mail语料集进行实验,得出的结果表明,TA-TSG模型在自动评估指标上比其他基准模型有显著提升。2)TA-TSG模型在提高生成文摘词语准确率的同时增强了文摘主题信息相关,但摘要的内容方面缺乏多样性。针对该问题,本文将变分自编码引入自动文摘任务,本质是利用变分自编码器的特征可以更好地对文本潜在语义进行建模,构建了一个基于变分自编码文本摘要自动生成模型(VAE-TSG)。VAE-TSG模型分三部分:采用变分编码器编码输入原文及标准摘要;通过变分推理得到隐变量近似后验分布完成建模;融合CopyNet模型的变分解码器根据隐变量序列、上下文语义向量以及复制/生成网络函数生成目标摘要。使用CNN/Daily Mail数据集进行测试实验,得出的结果表明,VAE-TSG模型在基于一元组和二元组的多样性指标上有显著提升,并且可以有效解决未登录词问题。
其他文献
行业发展特点房地产业对国家的宏观经济政策敏感性极强,与其他行业联系紧密,但与其他行业相比资金需求大,需要有足额的资金支撑和相对完善的资金链,收益周期相对较长,风险较大。房地产行业受宏观经济形势的影响较大,往往会有着周期性的波动,一旦出现一些特殊情况或者政策调控的情况下,房地产的交易量会大幅减少。另外,房地产行业的资金需求量较高,作为资金密集型的企业,需要足够的资金维持正常的运营,然而房地产企
导电涂料在电极、防静电、电磁屏蔽、电加热等领域已经得到了广泛应用,导电涂层的制备多采用有机聚合物作为成膜材料,但有机聚合物具有不耐高温、易老化等缺点,相较于有机聚合物,陶瓷涂料具有更为优异的耐热性能、硬度、抗老化、耐腐蚀性等性能。为了得到高耐热性能的导电涂层,本文以硅溶胶、硅氧烷、石墨(CGM)等为主要原料,采用溶胶-凝胶法制备了用于玻璃茶几或地板砖取暖的陶瓷基石墨导电涂层。通过添加石墨烯(Gr)
山区流域水文气象和地形地貌条件复杂,每年都会发生不同程度的洪涝灾害。对国民经济和社会和谐稳定造成极大的影响,因此搞好山区流域的洪水预报对减轻洪涝灾害的损失和促进国民经济的发展具有重要意义。论文从流域防洪减灾的实际出发,将BP神经网络原理应用于闽北山区崇阳溪上游流域,建立BP神经网络模型进行降雨径流预报研究,主要内容如下:(1)利用流域DEM数据提取研究流域边界,采用泰森多边形法将流域划分为7个单元
索缆是结构中重要的受力部件。然而,索缆所处的自然环境通常较为恶劣,且更换困难。位移是监测索缆“健康”状态的一个重要参数。因此对索缆的位移进行监测十分重要。传统的接触式位移测量方法存在的设备安装困难、测量精度易受环境影响、人工参与度高等问题,为此,本工作探索基于双目视觉的索缆位移测量方法。首先,为了降低对标志物尺寸大小的约束,本工作采用基于一维标定物的相机标定算法并对该算法进行改进。在原有的一维标定
近些年,环境污染事件的发生率逐年提高,迫切需要环境污染事件的快速监测,而传统的环境污染监控手段仍然存在监测技术配套性差和地区发展不平衡的问题,无法做到全区域、全时段、全种类的覆盖。网络新闻文本因具有广泛性、真实性和新鲜性的特点,往往可以弥补物理设备监测的不足。但是,环境污染事件往往存在“多米诺效应”,其新闻文本中易出现诸多干扰信息,如多个时间、地点和人物的混合表达,使得网络新闻文本蕴含环境污染事件