面向互联网舆情分析的海量数据检索模型关键技术研究

被引量 : 7次 | 上传用户:sakuma556
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我国网民针对社会及公共事务在互联网上发表大量自我观点及评论,而这些信息构成了网络舆情的重要组成部分。然而,互联网舆情信息大多是以孤立的形式分布在网络的各个角落,针对这些舆情信息的特点,我们在对互联网舆情方面做研究时,就需要利用现代的科学技术,提出一些有效的措施,舆情监控系统就是在这样的背景下应运而生。目前舆情分析系统在实际生活中有着一定的应用,政府及相关管理部门会利用舆情监控分析系统来对舆情进行及时的预警及采取相应措施,防止事态扩大恶化。本文在研究大量国内外有关舆情分析的资料后,设计并实现了一个简易的互联网舆情监控系统。本文所做的工作如下:(1)查询扩展技术研究在本文所设计的舆情监控系统中,用户可以在系统查询页面,输入要监控的关键字。系统会对关键字进行及时的语义扩展,主要是基于HowNet语义概念词典,计算出与关键词语义相似度最高的三个词,作为候选扩展词。(2)信息检索技术研究系统在用户提交完关键词、需要监控的网站范围和时间范围后,采用垂直搜索技术将系统结构分层。利用网络爬虫对扩展后的关键词,在要监控的网站进行信息采集;对采集下来的信息,采用通用信息抽取系统进行信息抽取和SCWS中文分词,并提出了一种改进的特征词提取算法,该方法把关键词的位置信息列入到考虑范围内,加入其权重计算,有较好的实验效果;最后对文档信息进行相似度计算。(3)舆情分析技术应用在经过上述步骤后,对处理过的文档进行文本聚类和热点发现算法计算,提取出舆情信息较多的热点话题及舆情爆发地区形势情况,之后再经过文本情感倾向性分析,通过人工标注及利用HowNet语义词典方法来对网民的舆论进行情感上的判断,最后利用自动文摘技术形成让用户直观了解地文摘式word报告,并有舆情数量图表分析结果。
其他文献
动态目标跟踪是一项尖端、复杂而又实用的技术,在军事航天,导弹轨迹检测跟踪,交通违章车辆识别等众多军事、民用领域都有非常广泛的应用。本文以复杂背景(即动态背景)下的行人、车
近年来,随着电子信息技术和纳米电子技术的飞速发展,集成电路的特征尺寸也由原来的亚微米尺度缩小到了纳米尺度,这意味着进入了纳米集成电路时代。在现代高速大规模集成纳米
驰名商标是具有很高知名度和良好声誉的商标,同时还是具有识别和财产双重价值属性的无形财产。驰名商标的作用已经不再局限于区别商品的来源和服务的提供了,它逐渐成为企业开拓
情报部门对一国政策的制定有重要的影响。在美国,中央情报局等情报机构受命撰写针对一些重大事件或问题的专题报告并提交给总统、军方及相关重要部门,这些报告是美国政府制定对
言语行为理论是语用学的核心理论之一。目前,将理论与具体语言材料相结合进行分析是言语行为理论研究的热点,这也是语言学研究的热点。道歉语目的在于通过道歉弥补对受话者的冒
微商主要依托于微信等网络聊天工具,借助移动互联网技术进行商品销售和提供服务,是一种新兴的电子商务营销模式。有别于传统的B2C或C2C电子商务模式,微商中大量存在的C2C微商
自然界存在大量含铁矿物,其中变价金属Fe元素在不同条件下易发生氧化还原作用,形成多种复杂含铁矿物相,物相的转变可带来矿山具经济价值矿石含量的变化,引起重金属污染,甚至
基于2014年国际药学联合会(FIP)对全球66个国家和地区药师持续职业发展(CPD)收集的数据,分析全球药师持续职业发展的趋势,比较6个国家药师持续职业发展实施现状,总结全球药师
数控机床是计算机集成制造、柔性制造以及e-制造实现的基础,在现代制造装备业中具有不可替代的作用。但由于其结构和种类较为复杂,其故障往往具有复杂性和隐蔽性的特点。数控机
自然语言理解是人工智能领域的一个重要的研究问题,其最终目标是让机器真正理解人类语言,实现人机之间的无障碍勾通。由于自然语言存在约定、多值、缩略、隐含、隐喻等特点,