社交网络中基于话题发现的自动摘要算法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:frog1266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于社会的高速发展以及人们对自然界的不断破坏,近些年来自然灾害频发,因此对于灾情的检测和对灾情的快速支援显得尤为重要。凭借高速发展的互联网技术,信息交互逐渐向新型的网络社交媒体发展,新浪微博正是这样一个可以自由发表言论,实时报道新闻事件的平台,因此受到了大多数人的亲睐。通过分析人们在微博上发表的有关自然灾害的事件或是意见评论,就能够掌握灾情的发展和舆论的走向。然而微博上每天产生的信息数以亿计,文本内容又较短,噪声数据更是不计其数,因此如何发现并提取这类特定的事件显得十分重要。传统的文本分析技术针对这类问题还不能完全适用,因此基于微博这类短文本的话题检测和自动摘要技术成为近些年研究的热点。(1)针对传统算法精度较低、话题表示结果不够具体形象等问题,本文在话题检测方面提出了一种新颖的基于图分析的话题发现方法(Topic Detection based on Graph Analysis,TDGA),该方法考虑到新浪微博文本的特殊性,采用针对短文本的特征词过滤模型和图生成算法,以满足话题检测和社区发现的双重要求。利用社区发现算法来检测由微博数据处理而成的特征词图中的话题。最后,我们在新浪微博中采集的自然灾害数据集上验证了本文的方法,其中大约有三千多条微博帖子。实验结果揭示了特征词与自然灾害话题之间的关系并且证实了该方法的可扩展性和准确性。(2)本文针对话题内容零散,语义不连贯等问题,提出了一种基于话题的自动摘要生成算法(Topic-based Automatic Summarization Algorithm,TASA),目的在于以一句话的形式展示话题内容的最终结果。首先,利用话题发现算法中得到的话题词和特征词的句子能量排序算法对原始微博文本数据进行过滤和排序,这也是最重要的一步。然后,选择得分最高的句子并进行润色处理,通过完善一些缺失或者冗余信息来达到句子含义的简洁性和丰富性。因此,可以使用这样的句子在描述每个话题的同时实现话题的自动摘要。实验结果证实,本文提出的基于话题的自动摘要算法反映了话题句与自然灾害之间的确切关系,语义信息丰富。更重要的是我们几乎可以从话题句中掌握这些自然灾害的基本要素,从而帮助政府指导灾害救援。
其他文献
(2)青虾和罗氏沼虾等品种轮养:青虾生长期短,与许多养殖品种存在季节差异,同一池塘在一年中可与罗氏沼虾、南美白对虾、淡水白鲳、罗非鱼等轮养。温水性鱼类或虾类一般都在5月初开
1.草鱼、青鱼为主的混养模式该模式要求有丰富的螺、蚬资源。近年来由于螺、蚬资源日渐减少,青鱼的放养量和产量都有所降低,加大了鲫鱼的放养量。放养模式见表1。
磷是生命系统的重要组成成分,其在生态系统中迁移转化是生态系统结构和功能的决定性因素之一。但土壤中磷素含量较少,是地球上生物生产力的限制性养分元素。生态系统内植物与土壤之间存在相互反馈,植物为了适应不同土壤磷素的条件形成不同的磷素营养策略,在磷素丰富的地区,植物和微生物将岩石母质中的磷转化为生物地球化学磷循环(获取策略)。相比之下,在磷素匮乏的地区,则建立紧缩的磷循环来维持植物对磷的需求(回收策略)
本文针对最近发现的高阶NLSE的新一类孤波解,通过计算机模拟,对其在传输中的稳定性进行了分析。数值计算表明该孤波解的稳定性与入射脉冲幅度的取值有关,且对不同微扰其传输的稳
一、黄颡鱼养殖的发展前景 黄颡鱼广泛分布于我国各大干支流及附属水体中,在江河、湖泊、沟渠、塘堰中均能栖息,是一种自然水体中的经济型鱼类。以前黄颡鱼没有进行人工饲养,市
21世纪是知识经济时代,作为学前专业教师,应从传统教师角色中走出来,结合本课程、老师及学生自身的特点,重新对自己的角色进行定位。
为调整产业结构,建设生态林业,培育新的经济增长点,实现“把资源管起来.让百姓富起来”的战略目标。4月15日至19日.我带领分管副局长、各林场行政主要领导、产业发展部、党政办、
肯定列表、鱼粉紧张、欧苗减产……无不为已经过去的2006年的中国养鳗业画上浓重的一笔,同时对2007年中国鳗业的发展趋势及鳗农现状也带来了一定的影响。展望2007年,鳗农的养殖
今年以来,由于饲料原料价格的不断攀升,带来了商品颗粒饲料价格一直居高不下,影响养殖户正常的养殖生产、经营,增加了水产养殖者经营风险,让部分养殖户感到惊慌,感到压力。我们认为