网络舆情分析中的特征提取研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:squllwu20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和发展,网络作为继传统媒体之后的第四媒体,其影响已经全面而深刻地渗入到了人们的政治、经济、文化生活等各个方面。网络传播具有自由性、交互性、开放性、虚拟性和隐蔽性等特点,既提供了大量进步、健康、有益的提倡性信息,也有不少反动、迷信、低级的误导性言论,因此对网络舆情进行分析和预警已经成为一个非常重要的现实需求。 网络公共舆情的来源按交流方式主要分为两类。一类以BBS为代表,数据之间具有明显的交流关系,对BBS的内容监控可以直接使用文本挖掘的技术;另一类以公共聊天室为代表,聊天数据不具有明显的交流关系,对公共聊天室的内容安全监控需要构建聊天室的社会网络,即发现用户之间的交流关系。而上述两类场景的监控都首先必须对网络数据进行特征提取,将数据转化为计算机可以处理的格式,然后才可以使用各种分析技术对数据进行挖掘。 本文以网络舆情分析为背景,重点研究面向BBS和公共聊天室两类代表性数据的特征提取问题。针对这两种数据,我们分别设计了相应的针对性的特征提取方法:并最终围绕这两类数据环境,构建了一个网络舆情监控原型系统。论文的主要工作包括: 1.设计了针对BBS数据的特征提取方法。首先,考虑到帖子标题的重要性,修改了经典权重计算的TF*IDF方法,将帖子标题中的单词权重加大:其次,鉴于大多数BBS数据具有明显的短文本特点:关键词稀疏,信息不完备等,我们根据帖子之间的回复关系构建了一棵回复关系树,在树的每条回复链上从上到下和自下而上地进行特征的传递和权重的调整,可以有效改变原来帖子特征的稀疏性,使它的信息更加趋于完整,主题更加明确,这样将能够改善我们文本挖掘算法的效果。 2.构造了有效的聊天室社会网络挖掘中的特征提取方法。针对聊天室数据的特点和聊天室社会网络挖掘的需要,我们对Mutton方法的启发式规则进行了修正和进一步扩充,并且引入内容相似性特征;然后采用集成学习的策略,基于多特征融合进行聊天室社会网络挖掘。 3.综合本文提出的上述两种特征提取方法,设计并实现了一个网络舆情监控原型系统。
其他文献
移动通信中的“用户感知”是指终端用户对移动网络提供的业务在主观感受上的综合满意程度。“用户感知”反映了终端用户对业务和网络的体验和感受,反映了当前业务和网络的质量
如今,由于对数据库的入侵行为频繁的发生,关于数据库的安全技术成为信息安全研究的焦点。入侵防御技术作为新的数据库安全技术被众多学者所研究,由于入侵防御技术作为一种主动的
协同制造已成为21世纪制造业发展的必然趋势。协同制造系统的实施提高了企业的柔性,为企业提供了敏捷而高效的组合能力,适应其个性化发展的需求,增强企业在市场上的竞争力,但在实施过程中,也遇到了一系列的问题,本文对其中的合作伙伴制造资源评价,协同生产计划分解与协同生产任务风险规避等内容进行了研究:(1)合作伙伴制造资源的评价方法。本文建立了合作伙伴制造资源的评价指标体系,并用遗传算法来确定各指标的权重,
聚合签名可以将n个不同的用户对n个不同的消息的签名合成一个签名,而验证者只需对合成的签名进行验证便可确信签名是否来自指定的n个用户,减小了签名验证的工作量和签名的存
如果想要综合利用同一个场景在不同成像器材、不同成像环境条件等不同因素的作用下所得到的多幅图像的信息,必须要先利用图像配准技术将这些图像进行配准对齐,让它们构成一个
随着微电子、计算机和传感器技术的高速发展,图像、声音等媒体信息的记录、存储、传输已进入数据化时代。图像、声音等媒体信息经过数据化处理之后形成的数据量非常庞大,这对
图像分割是由图像处理到图像分析的关键步骤,也是一种基本的计算机视觉技术。这是因为图像的分割、目标的分离、特征的提取和参数的测量将原始的图像转化为更抽象更紧凑的形
在目前信息爆炸的时代,迫切需要一些更加自动化、智能化的工具帮助人们在海量文本数据中迅速找到真正需要的信息。信息抽取技术应运而生,成为自然语言处理研究领域的重要方面。
实时任务调度的最大特点就是要满足任务的实时性需求。以往的实时操作系统任务调度理论研究,通常主要关注对实时性需求的满足,而对如何保证正确性研究不足。本文提出:正确性
交通事故是当前世界各国面临的严重问题,其中驾驶员疲劳是造成交通事故的主要原因之一。因此,开展驾驶员疲劳的研究工作,研制出一套有效的驾驶员疲劳监测系统,具有重大现实意