网络舆情话题检测与追踪技术研究

来源 :大连海事大学 | 被引量 : 5次 | 上传用户:wsd988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网因其具有良好的交互性,较强的实时性等众多特质,已成为民众日常获取信息的主要渠道之一。由此互联网对社会舆论的引导与民众意识的影响地位与日俱增。网络舆情已逐渐演变为社会舆情的核心组成元素,对社会的影响力不容忽视。然而网络舆情确又不同于传统的社会舆情,具备突发性,数据量庞大且冗杂等特点,难以透过人工实时高效的抓捕网络上的舆情信息。因此相应的网络舆情监控系统应运而生。该系统对政府相关部门掌握情报,并实施高效且科学的决策提供良好的支持,能够有效的正向引导舆论,维护社会稳定与和谐。本文重点针对网络舆情中的话题检测与追踪技术进行研究与分析,在已有的技术手段上对其进行改进以达到更好应用效果。本文研究工作主要涉及以下几点:(1)提出一种基于JRPCL的增量式话题检测聚类。本文首先研究并分析了传统的Sing-Pass聚类及增量K-Medoids聚类,针对文本输入顺序敏感及初始中心点选取问题,文中最终选取改进RPCL算法产生初始类簇避免了初始中心点的选取任务。同时对一定范围内的新数据采取Prim算法进行微聚簇后再实现增量聚类。一定程度上改善了因输入顺序敏感所造成的缺憾。有效的提高了聚类算法的精度并缩短响应时间。使其适用大规模的文本聚类。最后,经实验对比,本文提出的聚类方式具有良好的实际应用效果。(2)提出一种基于动态阀值及分类器集成的自适应话题分类。本文首先研究并分析了基于时间信息的话题分类及基于反馈报道的话题分类。针对动态阀值设定及分类器集成方式等方面的不足,将距离当前报道间隔最近的报到时间作为因素加入其中,同时本文在基分类器集成中引入了选择性集成理念。降低了追踪分类的误报率及漏报率。最后,经实验对比,证明本文提出的分类方式具有更好的实际应用价值。(3)在对相关技术研究的基础之上,本文设计并构建了网络舆情话题检测与追踪系统。详细阐述了该系统各层级各模块的实现及功能,通过该系统的实际运行。证明本方案具有较高可行性。进一步验证了上述方法的有效性。
其他文献
1930年代,南京私人米店外的米糕小贩卖.唐宋以来,江南成为中国水稻生产的中心地区,稻米已是人们的主食.经过千百年发展,江南的稻食品类多样,千变万化.仅一个米糕,就品类颜色
古埃及人并不认为人脑会有什么用处所以在首领死后,他们就把脑子从鼻孔里钩出来,再用布把头颅包好,然后才下垂他们相信意识存在于心脏,这也是亚里士多德及许多中世纪思想家的
本研究通过非酒精性脂肪肝患者的血清肝纤维化四项指标Ⅲ型前胶原肽(PCⅢ)、Ⅳ型胶原(CⅣ)、透明质酸(HA)、层黏蛋白(LN)检测,了解非酒精性脂肪肝患者肝纤维化的情况。
文章从绿色壁垒下我国对外贸易的现状出发,重点分析了绿色壁垒下我国外贸企业国际市场的营销策略,以期推动外贸企业日常运营的稳步开展,维护我国外贸企业的经济利益,争取外贸
我们是龙的传人,也是北京人的后裔。一个是美丽的传说,一个是似乎毋庸置疑的事实。我们从小就被灌输诸如此类的说法。从情感上,许多中国人难以接受自己的祖先来自别处。但是有一
对食道癌误诊胸骨后甲状腺肿1例分析如下。1病历摘要 男,59岁。呼吸困难并声嘶1个月,于2006-01-27急诊入院。有哮喘病史20a余。患者2006-01初无明显原因逐渐出现呼吸困难,尤其是
例1:女,38岁.下腹痛3 d,伴发热1 d.20 d前因停经45 d行人工流产术.术中见胚胎组织.查体:T 38.2 ℃,下腹压痛、反跳痛及肌紧张,以右下腹为著.WBC 14.8×109/L,N 0.85.B超检
据悉,国家质检总局、国家认监委联合发布公告,从今年8月1日起,对涂料、瓷砖、混凝土防冻液等三类装饰装修产品实施3C强制认证。公告规定:自今年8月1日起,凡未经过强制性认证的这些
从三个方面展开论述,首先要思创业并敢于创业,其次从社会学及人格心理学的角度剖析了创业者的个性特征与素质要求,最后就创业团队的组建、项目选择、商业模式的设计及风险控制等
本文对膨胀透平损坏情况、有关原因及修复情况进行了阐述。