面向互联网短文本的多文档自动摘要技术研究

来源 :解放军信息工程大学 | 被引量 : 0次 | 上传用户:NO_IX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网特别是移动互联网的高速发展,我国的网民规模不断扩大,网民在相互交流、发表言论和转发信息时会产生大量繁杂、冗余的短文本信息。传统的多文档自动摘要技术多数是面向以新闻为代表的长文本,而短文本具有特征稀疏的特点,影响了传统多文档自动摘要技术的性能。通过研究面向互联网短文本的多文档自动摘要技术,可以对同一主题的短文本信息进行聚合提炼,生成涵盖主题全貌、字数有限的摘要,有助于政府部门了解网络舆情,提高情报部门收集情报的效率。本文研究面向互联网短文本的多文档自动摘要技术,主要包括句子检索、短文本聚类和摘要句抽取三个部分,主要研究成果如下:(1)研究了句子检索技术,针对当前句子检索方法中因数据稀疏而导致的“词不匹配”问题,提出了基于WordNet和词向量的句子检索方法。首先,在WordNet语义关系图中应用个性化PageRank算法计算与查询项最相关的同义词集合,实现查询项扩展,从而在一定程度上缓解了查询项数据稀疏的问题;然后,利用在大规模语料中训练神经网络语言模型获取的词向量对查询项和句子进行表示;最后,引入词语游走距离计算查询项与句子的语义相似度,降低“词不匹配”问题带来的影响,将句子按相似度值从低到高排序完成句子检索。在TREC2003和TREC2004会议相关的评测数据集上的结果显示MAP和R-Precision值相较于传统方法分别提高了13.29%和13.54%,表明基于WordNet和词向量的句子检索方法能够有效解决因数据稀疏而产生的“词不匹配”问题,可以准确的检索句子。(2)研究了短文本聚类技术,针对互联网短文本特征稀疏和更新速度快而导致的聚类性能较差的问题,提出了基于关键词抽取和词向量的短文本聚类算法。首先,采用基于词性和词长度加权的方法抽取关键词,并以此表示短文本;然后,使用Skip-gram模型在大规模语料中训练得到表示关键词语义的词向量;最后,引入词语游走距离来计算短文本间的相似度并应用到层次聚类算法中实现短文本聚类。在四个测试数据集上进行的评测结果显示平均F值提高了56.41%,表明基于关键词抽取和词向量的短文本聚类算法能够从语义层面完成短文本聚类,相比传统方法能够有效提高聚类性能。(3)研究了摘要句抽取技术,针对当前的基于词向量的摘要句抽取方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题,提出了基于PV-DM模型的摘要句抽取方法。首先,构建单调亚模目标函数;然后,通过训练PV-DM模型得到句子向量来计算句子间的语义相似度,进而求解单调亚模目标函数;最后,利用优化算法从聚类结果中抽取句子生成摘要。在标准数据集Opinosis上的实验结果显示ROUGE-1和ROUGE-2值分别相较于传统方法提高了8.67%和24.95%,表明基于PV-DM模型的摘要句抽取方法可以准确的抽取代表多文档主题的摘要句。
其他文献
人工智能技术的兴起推动着生产企业的改造升级。水务企业由于成本高,通过新技术降低成本提高效益成为必由之路。人工智能可在水务企业的电气设备故障诊断、设备管理、工艺调
社交媒体平台,如微博、推特等,以其操作便利性、信息共享性、用户互动性、话题丰富性以及更新即时性等特征,吸引着大量的用户在平台上进行信息的发布与分享,同时社交媒体也成
文章以国有企业改革现阶段的突出现象——“新型国有企业”中的“全新型国有企业”为研究对象,选取了2003年至2005年分布在9大竞争性行业中的159家企业共477个样本数据,就其股
随着工业制造业的不断发展与进步,行业竞争也越来越激烈,这就需要工业制造企业采取一定的措施和策略来保证企业的健康稳定发展,而财务管理水平的高低与企业的发展有着直接的
目的探讨儿童甲状腺相关性眼病(thyroid associated ophthalmopathy,TAO)的临床特点及~(99)Tc~m-生长抑素类似物眼眶显像在其诊断中的应用价值。设计回顾性病例系列。研究对
<正>现在学校里体育课上通常用的小体操垫通常是60×120cm或50×100cm,中间可以对折。它是传统的体育器材之一,在体育教学中我们常常用于滚动、滚翻、爬行等体操类项目和一些
自老工业基地振兴战略提出以来,东北地区基本保持了稳健的金融运行态势,但依然比较突出的区域金融风险问题仍是制约金融机构对东北地区经济发展支持力度的重要因素。目前,东北区
本文建立了高效液相色谱法测定维生素软糖中叶酸含量的方法。结果可得出,该方法快速、可靠,可适用于维生素软糖中叶酸的含量测定。
分子自组装是超分子化学最重要的研究内容之一.杯芳烃作为继冠醚、环糊精之后的第三代人工合成受体分子已在分子自组装研究方面取得了重要进展并显示了广泛的应用前景.主要综
研究目的:传统计算下卧层附加应力的方法无法考虑土层分布及复合地基主要设计参数的影响,难以较准确估算下卧层附加应力。针对该问题,本文采用数值模拟,系统分析桩间距、桩体弹性