论文部分内容阅读
随着互联网特别是移动互联网的高速发展,我国的网民规模不断扩大,网民在相互交流、发表言论和转发信息时会产生大量繁杂、冗余的短文本信息。传统的多文档自动摘要技术多数是面向以新闻为代表的长文本,而短文本具有特征稀疏的特点,影响了传统多文档自动摘要技术的性能。通过研究面向互联网短文本的多文档自动摘要技术,可以对同一主题的短文本信息进行聚合提炼,生成涵盖主题全貌、字数有限的摘要,有助于政府部门了解网络舆情,提高情报部门收集情报的效率。本文研究面向互联网短文本的多文档自动摘要技术,主要包括句子检索、短文本聚类和摘要句抽取三个部分,主要研究成果如下:(1)研究了句子检索技术,针对当前句子检索方法中因数据稀疏而导致的“词不匹配”问题,提出了基于WordNet和词向量的句子检索方法。首先,在WordNet语义关系图中应用个性化PageRank算法计算与查询项最相关的同义词集合,实现查询项扩展,从而在一定程度上缓解了查询项数据稀疏的问题;然后,利用在大规模语料中训练神经网络语言模型获取的词向量对查询项和句子进行表示;最后,引入词语游走距离计算查询项与句子的语义相似度,降低“词不匹配”问题带来的影响,将句子按相似度值从低到高排序完成句子检索。在TREC2003和TREC2004会议相关的评测数据集上的结果显示MAP和R-Precision值相较于传统方法分别提高了13.29%和13.54%,表明基于WordNet和词向量的句子检索方法能够有效解决因数据稀疏而产生的“词不匹配”问题,可以准确的检索句子。(2)研究了短文本聚类技术,针对互联网短文本特征稀疏和更新速度快而导致的聚类性能较差的问题,提出了基于关键词抽取和词向量的短文本聚类算法。首先,采用基于词性和词长度加权的方法抽取关键词,并以此表示短文本;然后,使用Skip-gram模型在大规模语料中训练得到表示关键词语义的词向量;最后,引入词语游走距离来计算短文本间的相似度并应用到层次聚类算法中实现短文本聚类。在四个测试数据集上进行的评测结果显示平均F值提高了56.41%,表明基于关键词抽取和词向量的短文本聚类算法能够从语义层面完成短文本聚类,相比传统方法能够有效提高聚类性能。(3)研究了摘要句抽取技术,针对当前的基于词向量的摘要句抽取方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题,提出了基于PV-DM模型的摘要句抽取方法。首先,构建单调亚模目标函数;然后,通过训练PV-DM模型得到句子向量来计算句子间的语义相似度,进而求解单调亚模目标函数;最后,利用优化算法从聚类结果中抽取句子生成摘要。在标准数据集Opinosis上的实验结果显示ROUGE-1和ROUGE-2值分别相较于传统方法提高了8.67%和24.95%,表明基于PV-DM模型的摘要句抽取方法可以准确的抽取代表多文档主题的摘要句。