面向微博应用的新闻文本自动摘要研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:aujnqejbrob
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0时代到来后,大数据时代接踵而至,微博等社交媒体越来越受到社会和研究者们的高度关注,面向微博应用的相关任务以及评测也在逐年增加。文本自动摘要主要是通过计算机自动提取文本的关键信息,生成反映文本中心主旨的短文,能够方便压缩文本内容、加快信息交流速度、提升信息检索效率。因此,本文的主要研究工作是面向微博应用的新闻文本自动摘要研究,通过文本自动摘要技术,微博用户可以实现对所关注新闻进行快速缩减然后转发,能够很大程度减少微博用户人工编辑新闻字数再进行转发所耗费的时间,具有很高的实用价值。在深入学习了目前文本自动摘要相关研究方法的基础上,本文提出了基于多层次特征和Ranking SVM(Support Vector Model)排序模型的面向微博应用的新闻文本自动摘要研究算法,具体研究工作如下:(1)多层次特征提取。深入挖掘新闻文本各个统计特征及语义特征即句子词频、句子位置、句子与标题相似度、句子长度、指示性词语等统计特征和主题句这一语义特征,全面分析不同特征的提取方法,积极探索基于新闻文本的表示模型,以更好地运用文本特征。(2)文本句子排序。本文首先预处理新闻文本训练数据中各个句子并将其处理成能够运用的形式,接着将其转换为dat文件作为输入,获得Ranking SVM训练模型,利用得到的模型对处理好的测试数据文本中的各个句子进行排序,最终得到句子由高到低的排序;后期使用冗余处理、通顺度处理、指代消解等相应的可读性加工原则,对排好序的句子进行处理,最终得到比较理想的低冗余度及相对通顺的摘要句集合。最后,本文将上述特征提取方法及句子排序算法在NLP&CC2015面向微博新闻自动摘要评测任务的数据集上做实验,实验结果的ROUGE-1值达到50%以上,具备可行性。
其他文献
P2P流媒体应用是目前网络应用研究中的热点之一,数据调度作为P2P流媒体系统设计中的一个关键性问题得到了广泛的关注。目前现有的相关P2P流媒体数据调度策略大多是在请求节点
随着现代网络存储技术的不断深入发展与广泛应用,网络集群服务与主机多路径技术成为信息系统容灾与安全解决方案中的两种重要核心技术。本研究课题将利用微软MPIO多路径框架
随着科学科技的发展,尤其是信息化进程的不断加快,计算机及互联网在人们日常生活中发挥的作用越来越大,普及率也越来越高。计算机在各方面给人们带来便利、高效率的同时,计算机及
分子模拟计算在当代化学、生物学及制药学等科学领域的研究中扮演着不可替代的作用。通过分子模拟计算可以大大缩短这些学科的研究周期,同时极大地提高其实验成功率。现今主流
蛋白质的三维结构决定其生物功能,拓扑是对蛋白质结构的高层描述。预测蛋白质的核心拓扑模式,不仅有助于解构蛋白质三维结构,而且有助于设计和改造药物结构。本文面向蛋白质结构
Web服务是下一代面向服务计算的有效解决方案,而在开放、动态的网络环境中,服务自身行为的真实性无法确定,导致组合后的质量难以得到保障,所以如何评估Web服务的可信度,以及
近年来,语音自动切分技术成为语音信号处理领域的一个研究热点。由于手工的语音切分方式存在着耗时耗力并且不具有一致切分结果的弊端,为此,寻找一种高效的自动切分方法显得及其
图像旋转广泛应用于社会生产的各个领域中,它是很多图像预处理或检测的前提。在嵌入式领域同样也起着重要的作用,因为要满足实时性要求,所以一般使用基于FPGA的系统设计。本
WSN作为一门新兴的信息获取技术,由于其特有的优点,在各个行业都有广泛的应用前景。节点定位技术是基于WSN应用的基础技术,其定位精度直接决定了WSN的应用的好坏。随着人们需求
近些年来,互联网威胁逐渐从电子邮件转移到即时通软件和恶意网页。包含有害脚本代码的网页成为不法分子散播攻击程序的主要手段。网页有害脚本主要基于Javascript语言,针对浏览