【摘 要】
:
互联网的快速发展,使得网络成为民众表达舆情民意的重要平台,随之产生的问题是政府如何及时掌握舆情动态、积极引导社会舆论,以维护社会的稳定与和谐。因此,网络舆情的研究具
论文部分内容阅读
互联网的快速发展,使得网络成为民众表达舆情民意的重要平台,随之产生的问题是政府如何及时掌握舆情动态、积极引导社会舆论,以维护社会的稳定与和谐。因此,网络舆情的研究具有重要意义。论文针对互联网舆情信息挖掘技术进行研究,具体包括:(1)网页信息采集技术:论文分析了网络传输过程中的协议类型和网页结构,通过对获得的IP数据包进行过滤,实现对网页标题的截取。(2)中文分词技术:针对网页标题的结构特点,论文采用基于名词的分词方法,将分词结果表示成数字序列的形式,以提高处理速度,减少算法的内存开销。(3)数据流频繁项集挖掘技术:根据数据流无限性和流动性的特点,提出了一种在滑动窗口中挖掘频繁项集的算法FIM-SW。FIM-SW算法主要是采用垂直的数据库表示方法,使用二进制向量表示每个数据项,并利用Apriori性质产生频繁项集。实验结果表明,这种算法显著地提高了挖掘效率。结合以上的研究,实现了中文网页热门主题获取系统,包括获取网页主题模块、中文分词模块和统计频繁主题模块。实验表明,系统能够发现网络数据流中的热门主题。另外,在对系统进行测试的过程中,发现并分析了系统参数对系统性能的影响,为提高系统性能提供了依据。
其他文献
面神经麻痹,即面瘫,是一种常见的疾病,病因复杂,治疗过程漫长。面瘫分为两种,一种是脸的一侧患病,一种是两侧都患病,其中,单侧脸患病的情况更为普遍,通常所说的面瘫即指此类
网络存储结构的发展经历了几个阶段:大致包括DAS、SAN、NAS、带文件系统的SAN和OSD。理想的存储结构应该能够提供强安全性、跨平台的数据共享、高性能和对存储设备与客户数量
对等网络(P2P)技术近年来得到快速的发展。随着P2P系统规模和应用范围不断扩大,高效的资源发现机制成为P2P系统的关键技术。本文主要研究非结构化P2P系统中资源发现机制。本
信息时代高速发展的今天,互联网深入到人们生活的各个领域,各种新型的应用层出不穷,每天需要存储大量的数据以及应用需要访问大量的数据。存储内容和访问需求同时急剧增长,使
客户体验管理(CEM,Customer Experience Management)是战略性的管理客户对产品或公司全面体验的过程。近年来,随着电信业务的飞速发展和用户数量的不断增加,电信运营商的竞争
云模型是用语言值表示的某个定性概念与其定量表示之间的不确定性转换模型,以将人用语言值表述的控制经验构成规则,多条规则构成规则库,当外部有输入刺激规则时,通过云的不确
无线传感器网络以其低廉的价格、便利的部署方式正得到越来越广泛的使用。对传感器网络各个方面的研究也成为目前学术界非常活跃的课题,路由协议是传感器网络的关键问题之一
陶瓷是中华民族文化极其重要的组成部分,深刻影响着世界文化史的发展进程。显微组织测量与分析是判断陶瓷材料状态和内部结构的主要途径,对陶瓷材料研究具有非常重要的现实意义
Ad Hoc作为一种特殊的无线网络,具有组网快速方便、通信协议简单、无需任何基础设施、抗毁能力强、分布式的拓扑结构、能耗少等优点,从而有着广阔的应用前景。近年来研究发现
随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。数据挖掘的算法有:关联分析、分类和预测、聚类分析。特别是其中的分类问题,是数据挖掘重要