基于WEB数据挖掘的网络舆情分析研究

来源 :数字化用户 | 被引量 : 0次 | 上传用户:lollipop7919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、网络舆情
  网络舆情是由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合。网络舆情形成迅速,对社会影响巨大。随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。
  网络的开放性和虚拟性,决定了网络舆情具有以下特点:
  (一)直接性,通过BBS,新闻点评和博客网站,网民可以立即发表意见,下情直接上达,民意表达更加畅通;
  (二)突发性,网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索;
  (三)偏差性,由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民发泄情绪的空间。在现实生活中遇到挫折,对社会问题片面认识等等,都会利用网络得以宣泄。因此在网络上更容易出现庸俗、灰色的言论。
  二、数据挖掘技术
  数据挖掘(Data Mining,DM),又译为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘是目前人工智能和数据库领域研究的热点问题。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。知识发现过程由以下三个阶段组成:1.数据准备,2.数据挖掘,3.结果表达和解释。数据挖掘可以与用户或知识库交互。
  (一)决策树。决策树是数据挖掘分类算法的一個重要方法。在各种分类算法中,决策树是最直观的一种。每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。 当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。
  决策树同时也可以依靠计算条件概率来构造。
  决策树如果依靠数学的计算方法可以取得更加理想的效果。 数据库已如下所示:
  (x,y) = (x1,x2,x3…,xk,y)
  相关的变量 Y 表示我们尝试去理解,分类或者更一般化的结果。 其他的变量x1,x2,x3 等则是帮助我们达到目的的变量。
  (二)遗传算法。遗传算法也是计算机科学人工智能领域中用于解决最优化的一种搜索启发式算法,是进化算法的一种。这种启发式通常用来生成有用的解决方案来优化和搜索问题。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。遗传算法在适应度函数选择不当的情况下有可能收敛于局部最优,而不能达到全局最优。
  (三)人工神经网络。人工神经网络在结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型,在数据采掘中可用来进行分类、聚类、特征采掘等操作。人工神经网络是并行分布式系统,采用了与传统人工智能和信息处理技术完全不同的机理,克服了传统的基于逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷,具有自适应、自组织和实时学习的特点。
  (四)模糊逻辑。模糊逻辑指模仿人脑的不确定性概念判断、推理思维方式,对于模型未知或不能确定的描述系统,以及强非线性、大滞后的控制对象,应用模糊集合和模糊规则进行推理,表达过渡性界限或定性知识经验,模拟人脑方式,实行模糊综合判断,推理解决常规方法难于对付的规则型模糊信息问题。在数据采掘中,常用来进行证据合成置信度计算等。
  (五)粗糙集理论。粗糙集理论作为一种数据分析处理理论,在1982年由波兰科学家Z.Pawlak创立。粗糙集理论作为一种处理不精确(imprecise)、不一致(inconsistent)、不完整(incomplete)等各种不完备的信息有效的工具,一方面得益于他的数学基础成熟、不需要先验知识;另一方面在于它的易用性。由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现方法,它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性。
  (六)可视化技术。可视化技术作为解释大量数据最有效的手段而率先被科学与工程计算领域采用,并发展为当前热门的研究领域——科学可视化。可视化技术把数据转换成图形,给予人们深刻与意想不到的洞察力,在很多领域使科学家的研究方式发生了根本变化。可视化技术的应用大至高速飞行模拟,小至分子结构的演示,无处不在。在互联网时代,可视化与网络技术结合使远程可视化服务成为现实。
  三、基于WEB的数据挖掘
  基于WEB的数据挖掘,就是利用数据挖掘技术自动地从网络文档以及服务中发现和抽取信息的过程。基于WEB的数据挖掘技术已经应用于解决多方面的问题,比如基于WEB内容和结构的挖掘极大的帮助了我们从巨量的网络资源中更加快速而准确的获取所需要的资料,而基于使用的数据挖掘的强大作用,更是为商业运作提供了有力的量化决策根据。
  (一)基于WEB的数据挖掘特点
  1.Web数据挖掘的对象是大量、异质、分布的Web文档web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘,必须要研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。   2.web文档是半结构化或無结构的目前数据发掘多应用于关系和面向对象数据库,它们有完善的结构,按照预先定义的模式进行组织、存储和存取,而W eb 上的数据非常复杂,往往具有半结构化或非结构化特性,难以映射到一个固定的模式,使传统数据模型和数据库系统难以支持Web上的信息挖掘。针对W eb 上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。
  3.数据源具有很强的动态性,因特网中数据更新非常迅速,有些信息可能很快过时,针对当前状态的信息能快速更新知识,提供准确的决策支持要求数据发掘的动态性。
  4.用户目标的模糊性,基于WEB的数据采掘用户往往只对要采掘的主题有一个粗浅的认识,提不出很明确的目标来。这就需要数据采掘系统具有一定的智能性和学习机制,不断地跟踪用户的兴趣,清晰明白地阐述采掘结果。
  (二)Web数据挖掘的分类
  1. Web内容挖掘
  Web内容挖掘是指从Web 文档内容及其描述信息中获取潜在的、有价值的知识和模式的过程,主要包括对网页的内容特征进行提取、基于内容的网页分析/聚类、网页间内容的关联规则发现等。网页的文本内容包含最丰富的信息,然而其表达方式复杂,不利于计算机理解。Web内容挖掘可以有效地对大量文本内容进行总结、分类、聚类、关联分析以及利用Web 文本进行趋势预测等。Web内容挖掘是数据挖掘技术在网络信息处理中的应用,不仅能够处理来自数据库的结构化数据,还能够处理半结构化数据和无结构化的自由文本,还有图像、图形、视频、音频等多媒体数据,可以全方位、多角度地对舆情信息内容进行深入分析。
  2. Web结构挖掘
  在整个Web 空间中,有用的知识不仅包含在Web 页面内容中,也包含在Web 页面结构和Web 超链接结构中。Web 结构挖掘主要是通过分析Web 组织结构和链接关系,挖掘出潜在的有用的知识,其目的是获得与主题高度相关的链接以及链接逻辑结构的语义知识,这些知识可以帮助舆情监管部门从中找到有价值的权威页面、中心页面。Web 结构挖掘应用于网络舆情分析系统中,能够帮助舆情监管部门获取与舆情信息发布者、传播者以及传播环境最相关的链接,可揭示权威网页之间的关联,揭示蕴涵在这些文档结构信息中的有用模式,有助于从多个维度和层面挖掘舆情信息。
  3. Web使用挖掘
  Web使用挖掘就是对用户访问Web 时在服务器上留下的访问记录进行挖掘,获取用户访问Web页面的模式。由于挖掘的对象是服务器上的日志信息,因此也称为Web日志挖掘。这些信息包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等。通过分析和探究Web 日志记录中的规律,可以识别用户的访问模式和行为偏好,从而预测其行为。
  四、基于WEB挖掘的网络舆情分析模型设计
  针对WEB的特点,为了迅速准确了解互联网络舆情关注的热点,分析舆情发展的时间和空间分布,本文提出了一网络舆情分析框架模型,如上图所示。
  (一)舆情信息采集模块
  舆情信息采集的主要任务是选择性地从舆情传播的主要载体中对那些与预定义主题相关的页面进行自动化、智能化的收集,并进行有效的过滤和存储,为下一步的舆情挖掘与分析提供优质素材。
  本模型采取构建包含公众集合、社会现象(问题)、态度情绪表象、舆论持续性、舆论的功能表现、舆论质量等多种因素的各个初始网页集合,实现具有领域词义的多维时空的分布式多点海量数据采集,结合适用舆情信息的数据预处理方法,利用网格技术实现数据集成,建立针对具体舆情问题的统一的数据存储格式。设公众集合、社会现象(问题)、态度情绪表象、舆论持续性、舆论的功能表现、舆论质量的各个方面权威集合集分别为Pc、Sp、Em、Cn、Fu、Qu,不同的数据存储分别为SV1、SV2、SV3,利用网格技术实现数据共享,SV1、SV2作为数据采集器,SV3为舆情分析系统主机。数据采集子系统数据流如下:
  (二)舆情信息预处理模块
  舆情信息预处理模块的主要功能是: 对采集到的相关网页进行去噪处理,如对广告、注释等噪声数据进行清理,然后用统一的结构化的格式进行文本表示,然后利用分词技术、特征提取技术、权重计算技术等进行特征选择,构建粮食数据仓库,利用分类器实现文本的分类。文本分类技术是整个预处理模块的核心,其步骤描述如下:
  步骤1 舆情因素集合Pc、Sp、Em、Cn、Fu、Qu分别用类别集合S= {S1,…Sm…Sn} 表示,分别进行去重、去噪处理,并统一转化为XML格式,用分词系统分词。
  步骤2 计算词条t在文档d中的权重W(t ),并构建文档d的特征矢量V(d ) 表示文本。
  V(d )= (t1,Wn(t1) ; t2,Wn(t2) ; …tn,Wn(tn))
  步骤3 对于训练阶段转到步骤4;对于分类阶段转到步骤5。
  步骤4 统计S中类别m的所有文档的特征矢量V(Sm),用特征选函数F( x) 进行特征选择,确定类别m的特征矢量V( Sm),评价分类结果,若需优化Wn(ti)和F( x),转到步骤2。
  步骤5 分类器函数计算待分类样本dn的特征矢量V(dn)与每个V( Sm)之间的相似度Sim(dn,sm),选取相似度最大的类别作为dn的类别;对于所有相似度都小于一定阀值的样本,则视为非舆情主题相关样本。
  (三)舆情数据挖掘模块
  数据挖掘模块主要由语义信息集成和Web挖掘引擎两部分组成,前者可为后者提供经预处理后的结构化信息,简化并加速Web 挖掘处理。   1. 语义信息集成由于舆情数据采集初始数据库的原始数据来自不同的媒介,在结构和语义上都存在较大的差别,需要对其进行统一处理,并根据需要利用自然语言理解等智能信息处理技术进行深层次的预分析,为提高挖掘引擎的效能和健壮性奠定基础。借助XML 或Ontology 技术,在本体库、元数据库、文献知识库、语言知识库等基本知识库的协助下进行语义抽取、标注和描述,可将异构数据转换成具有统一语法和语义格式的通用数据模型,减少挖掘阻力及提高通用性。
  2. Web挖掘引擎
  Web挖掘引擎是整个舆情分析模型的动力所在,通过定义Web挖掘模型语言,选用合适的挖掘算法和工具,执行Web 挖掘任务。由于Web 挖掘的主要目的在于从大量的网络舆情信息中提取出可理解的模式或规律,预测事件发展的趋势,因此,需要根据决策的需要和网络舆情信息源的特点,从多个维度和层面进行深层次的挖掘处理。
  (四)网络舆情统计分析模块
  利用统计学、模式识别、人工智能以及人工神经网络等多种数据分析模型的融合,利用实现海量网络信息舆情分析处理模块,形成网络舆情监控和预警机制。模块包含三个方面职能。
  第一,通过对舆情专题检测捕捉热点、敏感信息,并针对特定的专题主体,如情绪表达、热点持续性、舆论的功能等各个要素跟踪技术处理,同时设计融合各方面因素的分析策略,及时发现舆情安全隐患,并提供预警信息。
  第二,对特定公共事件的公众所持观点和关注度的分析,掌握事件发生、发展和加强的可视化时间序列,开发基于区域性舆情的分别汇总,提供实时的空间和时间的网络舆情趋势信息保障,有利于决策者实施适当的措施。
  第三,利用破坏性预测、分析和预防的决策系统,对多发性的、社会危害严重的舆情构建主动分析、及早预测和及时预警的机制,提供相关、相近主题的预防措施经验。同时针对舆情引起的其他方面的问题进行关联分析,及时发现彼此存在的联系。
  五、结束语
  利用Web挖掘技术实现对网络舆情信息的监测,有利于充分挖掘海量的网络信息资源,能够及时发现舆情热点事件,为舆情产生的社會影响提供预警服务。本文着重分析了当前网络舆情分析系统的特点和方法,提出了一种解决方案,构造了一个较完善的网络舆情分析架构。通过各种算法的编码和改进,达到了动态预警和辅助决策的目的。网络舆情信息分析系统是一个复杂而新颖的研究领域,仍需进一步的研究和深化。
  基金项目:
  本文系甘肃省教育科学“十二五”规划课题“数据挖掘网络系统的研究”研究成果,课题编号为:GS﹝2013﹞GHB0836 。
其他文献
【摘 要】档案数字化是信息时代的大势所趋,但是开展档案数字化工作的进程中容易引发一系列的风险,本文重点介绍了这些风险并在此基础上提出了几点防控措施。  【关键词】档案数字化 风险 防控  一、档案数字化建设中存在的风险分析  (一)档案信息外泄或丢失  档案信息外泄或者丢失是比较常见的一种风险,发生的概率较大,在信息迁移的过程中,由于读写数字信息的硬件与软件处于不断发展之中,要长期保存数字信息,只
期刊
【摘 要】新时期,随着经济的发展和科学技术的进步,我国开始迈入了信息化的新时代。各行各业在时代的浪潮中都进行了自我调整式的改革。对于教育行业来说,随着新课改的进行,我国越来越重视创新型和实践型人才的培养。教师们根据现阶段教学目标和课程改革的内容对传统的教学方法进行了改良,案例教学就是新型教学法的显著代表。  【关键词】案例教学 技校 德育课 对策  德育课程一直是技校教学的重点学科,它不仅关系到学
期刊
我国正处在一场具有划时代意义的伟大变革之中。这场变革引起了社会各个领域的深刻变化,也给学校政治教学工作带来了冲击。本文就如何结合政治课堂教学,进一步推动中学德育工作的整体改革,加强和改进中学的德育课程,探讨人才培养的正确导向,谈谈自己的几点思考。  从目前的实际情况来看,中学政治思想教学工作的改革还不能适应中国社会主义现代化建设和改革开放的需要。突出的问题是,学校政治思想教育工作的实效率差,学生的
期刊
【摘 要】随着社会的发展,大学生也逐年增多,随之而来的高校建设工作也变得尤为重要。高校建设不仅仅针对传统师资方面的建设,而且其内涵建设也越来越被人们所认知。构建校园文化,推动思政工作逐渐成为了高校内涵建设的主题工作。  【关键词】校园文化 高校 思政工作  当今社会,高校内涵建设已经逐渐成为评价高校水平地位的标准,较好的高校内涵体现出一个高校独特的校园文化。构建校园文化,推动高校思想政治工作成为当
期刊
【摘 要】数字化校园的建设离不开校园一卡通工程的建设,一卡通工程是建设数字化校园的根基。文章简单的介绍了一卡的内涵以及数字化校园建设中一卡通工程建设,一卡通在整个数字化校园的建设中具有许多的优点。在建设一卡通工程同时,也应该重视一卡通系统的安全问题。  【关键词】校园一卡通 数字化校园 系统安全  一、引言  当前,信息化技术已经广泛运用于社会各个行业和领域,信息技术的发展也进一步促进我国校园数字
期刊
【摘 要】图书馆是知识库集中之地,藏有数量巨大的图书、等各种载体,那么怎样才能建设好学院的学科重点、馆藏特色服务的图书馆,更好地满足教学科研的信息需求,目前是我们直得探讨的问题。  【关键词】图书馆 学科特色 服务  网络环境下,图书馆的服务工作受到了严重的挑战,特别是新图书馆的服务工作已经远远不能满足读者的需求;在这种环境下,图书馆只有尽快找到新的服务思路,建设好学科特色服务,才能跟上时代的步伐
期刊
信息技术与课程整合是我国教育改革上的一次新的尝试, 与学科教学有着密切的联系,同时又是具有相对独立性特点的新型的教学结构类型。计算机和因特网等现代信息技术的日益普及,正在全面影响着我们的日常学习和生活方式。普及信息技术,尤其是与其他学科的整合,成為信息技术在教学模式改革中的关键。在现代教育的大时代下,以现代信息技术为手段,探索新型信息技术和学科整合的教学模式是我们在适应新课改的一次实践。  一、对
期刊
【摘 要】键盘录入技术是使用计算机时,需要掌握的一门基本技术,也是当前的职教管理部门要求学生必须掌握的一门计算机基本操作技能。因此,中职院校需要根据自身发展的具体情况,加强键盘录入技术教学,采取科学合理的教学方式,有效地提高学生的汉字录入速度。本文将主要围绕如何提高学生的汉字录入速度展开论述。  【关键词】汉字录入速度 学习兴趣 学习方法 提高  在中职院校的汉字录入教学中,为了有效地提高学生的汉
期刊
【摘 要】随着社会的不断发展,人们对于体育课程的教育功能与教学方式又有了新的认识与看法,传统军事化“灌输式”的体育教学方式,已经满足不了促进学生健康,提高综合素质能力全面发展的要求。为了在当前的教育理念下搞好中学体育教学,提升体育教育教学的有效性,本文主要以“师生互动”为突破口,对如何开展中学体育教学提出了部分探讨性看法。  【关键词】中学 体育 师生互动  一、中学体育教学中师生互动的意义  (
期刊
【摘 要】在21世纪,是高等教育发生划时代变革的世纪,这个世纪需要培养的是具有竞争意识和开拓意识的全面性发展的人才。这就要高度要求人才的综合素质和心理健康。竞技健美操深受广大女学生们的热爱,对提高女生的自信心和形态的发育有着很大的积极作用。  【关键词】竞技健美操 女生形态 变化影响  健美操是在有音乐伴奏的同时运用各种不同类型的操化运动,融体操、舞蹈、音乐为一体的练习。以有氧练习为基础,以健、力
期刊