互联网舆情信息挖掘技术研究与实现

被引量 : 0次 | 上传用户:baijiankai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展,互联网上的信息量成倍增长,已经毋庸置疑的成为现今社会知识和信息的集聚地,它也理所当然的成为了人们获取信息的目标地。互联网作为为人们获取知识和信息的重要途径,提供给人们便利的同时也收集着人们对获取信息的反馈。各种不同的反馈构成了互联网上的舆情信息,又因为互联网的虚拟性和开放性,使得网络舆情信息比普通舆情信息的影响范围更广,互联网舆情信息已经成为社会民意的风向标,分析互联网信息就必不可少的要对互联网舆情信息进行研究。本文就互联网舆情信息的抓取和分类做了一定的研究,参考分析互联网舆情分析系统中网络爬虫的己有研究成果,深入分析了网络爬虫的一些关键技术,根据本论文的需求实现一个优化的网络爬虫,实现互联网舆情信息的抓取。本文分析了热点事件关键词在舆情信息研究中的重要作用,提出通过热点事件关键词来发现舆情信息,这一方式提高了舆情信息获取精度和获取效率。在一般的网络爬虫架构中加入锚文本匹配模块,该模块实现对网络舆情信息的有效获取。本论文主要进行的工作如下:第一,对互联网舆情信息挖掘技术的特点及难点进行分析并总结,分析网络爬虫在该技术中的地位作用。研究它的实现目标和实现方法,第二,分析通用网络爬虫技术的实现,研究主题爬虫技术、聚焦爬虫技术等,然后在此基础上提出适合本系统的网络爬虫实现目标。给出了爬虫的具体实现细节,其中包括网页的抓取及解析、网页内容的获取和去重、爬虫的爬行策略、URLS的去重等。第三,分析网页锚文本与内容的关系,提出并实现用锚文本匹配热点事件关键词这一方法。研究短句汉语的匹配问题,深入研究文本分类技术,主要包括文本分词,文本表示,特征选择和分类算法四个部分。实现网页内容的数据库存储,研究信息的索引和检索技术,该技术的实现能使用户方便的检索数据库中存储的信息。
其他文献
我国开展利用外资工作至今,在利用外资规模不断扩大的同时,利用外资质量也在不断提升,弥补了国内建设资金的不足,为我国经济社会快速发展做出了重要的贡献。党的十八大报告提
伴随着社会主义市场经济的迅速发展,中国证券投资基金业也得到了发展和壮大。但在发展中所暴露出来的弊端,也逐渐引起人们的关注和思索。在考察、借鉴国外基金业发达国家成熟经
环氧乙烷(EO)又称氧化乙烯,是乙烯工业下游衍生物中仅次于聚乙烯而居第二位的重要化工产品。它是用途广泛的合成中间体。主要用于生产乙二醇,还可生产乙醇胺类、醚类、非离子
近几年来,肇庆经济快速发展,社会不断进步,人民生活水平不断提高。在这一背景下,用户越来越重视供电的质量和供电的可靠性。如何确保全社会用电成为肇庆供电局一项社会责任。虽然
建筑节能是降低能耗、实现社会可持续发展的重要组成部分,据统计当前我国建筑能耗已占到社会总能耗的35%左右,随着中国城镇化步伐的加快,这一比例还将继续提高,对我国能源供
随着人们生活水平的提高,人们对健康的要求也越来越高。使得医院规模不断扩大,医院员工数量不断增加,从而给医院人力资源管理带来了更多的压力。但是,目前国内很多大型医院的
从海关的性质和任务来看,作为国家的进出境监督管理机关,海关是国家唯一赋予对进出境货物、物品实施监督管理的职能部门,是国家主权的体现和国门的象征,担负着维护国家经济利
在IP技术快速发展和三网融合不断推进的背景下,数字电视前端系统正在向大容量、多业务、IP化迈进。基于IP技术的系统设备集成度高,涵括了信号的复用加扰、处理调度、备份保护等
管理是社会组织中为实现预期目标,以人为中心进行的协调活动。如今,管理科学已经融入现代社会的方方面面,中小学图书馆自然也离不开管理。小学图书馆(阅览室)在开放阅览期间,采取有
在云计算技术十分火热的今天,桌面虚拟化作为云计算的一种重要应用获得了空前的发展。桌面虚拟化通过虚拟化技术和云计算技术的结合,采用集中管理,集中控制,定制显示的核心思想,将