社交媒体短文本自动摘要

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:epaiai009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,Twitter、新浪微博等社交媒体产生的海量短文本形成了巨大的信息资源,同时也造成了严重的信息过载问题。自动摘要技术能从海量短文本中自动挖掘出有价值的信息,并以浓缩形式展示给用户,从而节省用户大量时间。因此,研究针对社交媒体短文本的自动摘要技术具有重大的应用价值。  如何从文本中挑选出最相关的信息是抽取式摘要技术的重点,因此抽取式自动摘要可转化成句子选择问题,而其重点在于句子相似度度量和句子打分算法。但是由于社交媒体短文本篇幅小、噪声大、规范性差且稀疏性严重,导致传统文档摘要技术中的句子打分方法无法直接用于短文本,而且基于词袋模型和基于深度句子表示的单一粒度相似度度量不能很好地度量句子相似度。针对这些问题,本文开展了如下研究工作。  提出基于key-bigram提取的无监督微博自动摘要方法,以充分利用微博中文本片段的重复特性。首先,分别基于混合TF-IDF、TextRank和主题模型提取key-bigram以刻画微博话题下细粒度的核心子主题。然后,基于提取的key-bigram集合,提出了分别基于交叠相似度和互信息策略的句子打分(排序)算法。最后,以贪心迭代的形式抽取排名靠前、且满足一定冗余度条件的句子组成特定长度的摘要输出。在新浪微博和Twitter数据集上的实验结果同时表明,本方法能有效提升摘要的ROUGE-1值,尤其是准确率。  研究了基于融合思想改进key-bigram提取和句子排序结果的技术。为了更充分地考查bigram之间的语义关系,提出一种基于局部密度思想的key-bigram提取算法,并将TextRank与之级联,为其产生候选key-bigram集合。抽取摘要时,基于平均排名和排名稳定性对多排序结果融合。实验结果表明,融合多种排序结果能进一步提升摘要质量。  提出一种基于深度学习的多粒度相似度度量和次模函数优化相结合的短文本自动摘要方法。将抽取式摘要问题建模成带背包约束的次模函数最大化任务,联合优化摘要的覆盖度和多样性,同时用基于深度学习的多粒度相似度对目标函数加以改进。Opinosis数据集上的实验结果表明,本文提出的多粒度相似度度量方法,比基于词袋模型和单一粒度的深度句子表示计算相似度的方法更鲁棒,在ROUGE-SU4指标下超过了该数据集上目前最好的结果。
其他文献
该论文用互高阶累积量进行RHN频率估计,为抑制色噪声提供了一个新的技术手段,主要开展的研究工作和主要结论如下:综合现代互谱和高阶谱估计理论,将二者巧妙地结合起来,提出了
该文以我们为顺德金德纺织机械有限公司KT566织机配套开发的控制系统为背景,从工程的角度论述了该系统的设计及实现过程,主要突出了系统的智能化和信息化特点.
该文研究的是分级控制的欠驱动二连杆机器人,研究领域包括机器人系统的硬件设计、软件设计和平衡控制.该课题得到国家自然科学基金和广东省自然科学基金项目资助.
面向任务的移动机器人自主规划在真实的应用环境中经常会面临部分可观察环境下的信息缺失、多任务处理的效率低下、任务执行过程中发生异常等挑战和困难。尽管当前在人工智能
自抗扰控制技术(Active Disturbance Rejection Control,ADRC)作为一种抗干扰能力强、控制精度高、响应速度快、算法简单易于数字化实现且不依赖于系统模型的新型控制技术,引起
该论文对带拖车的轮式移动机器人系统的运动描述、运动规划、反馈镇定与跟踪控制等方面开展研究,取得了以下主要成果:第一,建立了一般连续形式的带拖车的轮式移动机器人系统
生物医学基础研究的应用需求拉动了医学影像的快速发展:从成像模态上看,单模态成像越来越向多模态融合成像发展;从成像对象的尺度上看,最初由宏观尺度的成像转向微观尺度的成像
敏捷制造是企业为适应日益激烈的市场竞争而采取的新的生产模式,计划与调度的优化则是制造企业提高生产效率的主要手段.该文研究了敏捷制造环境中的客车装配车间的生产计划、
论文讨论了反馈线性化方法在纵向飞行自动控制系统设计中的应用.针对系统中存在的模型不确定性,论文提出了一种基于反馈线性化的滑模控制器设计方法,以改善控制器的鲁棒性能.
抓取或夹持是工业机器人的重要操作方式,也是实现高精度装配、灵活搬运等应用中必不可少的环节。例如,在大型激光装置光机组件装配过程中,工业机器人需要精确夹持大口径光学元件