【摘 要】
:
近年来,互联网络作为一个正在加速膨胀的思想阵地,已越来越引起足够的重视与运用,互联网的信息繁杂多样,良莠不齐,进步健康有益的信息大量涌现,同时,反动、迷信、黄色的信息
论文部分内容阅读
近年来,互联网络作为一个正在加速膨胀的思想阵地,已越来越引起足够的重视与运用,互联网的信息繁杂多样,良莠不齐,进步健康有益的信息大量涌现,同时,反动、迷信、黄色的信息也随之而来。加之互联网信息的虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的人们愿意通过这类渠道表达自己的个人想法,于是,网络舆情的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁。由于社情民意信息的重要性,作为数据挖掘技术手段之一的文本聚类有着非常广泛的应用前景。
文本聚类首先需要对文本进行预处理,通过分词、特征选择或特征抽取等过程将文本转化成计算机可处理的格式化数据如文本向量,然后使用聚类算法进行聚类。k-means算法由于操作简单、容易实现且时间效率高等优点是一种最常见经典的文本聚类算法。而且,对初始值的依赖性和对噪声数据的敏感性等不足使得k-means算法的改进研究具有很大的发展空间。
社情民意分析系统平台的目标是要挖掘出一段时间内用户普遍关注的热点问题。本文以认知的相对性规律及其相对变换方法为研究指导思想对k-means算法进行改进。相对变换具有简单性、普适性、可操作性等特点。通过对数据原始空间的相对变换的k-means算法能抑制噪音,并将稀疏数据变得相对密集,物理意义清晰。另外,本文还根据社情民意文本的特点,先应用数据挖掘的摘要算法程序对原始的社情民意文本进行摘要,然后对摘要文本进行聚类,提高了聚类质量。
其他文献
随着企业IT系统建设与发展,很多企业IT系统的建设已经完成了从无到有,再到完善的过程。而随着众多业务系统的建设的完成与系统的规划,EAI系统的建设逐渐成为企业在IT建设中的
身份识别系统广泛的应用于安全性较高的场所,如机场,银行,机房等地。传统的识别技术有密码锁,IC卡等。目前逐渐兴起并发展的生物识别算法,如人脸识别,指纹识别,虹膜识别,掌纹
工作流技术起源于20世纪80年代,随着当前网络技术的发展和行业信息化的不断深入,工作流技术也在迅速发展。工作流管理系统与传统信息系统的区别在于,传统的信息管理系统是面
在智能家居系统中,通过远程移动终端对家庭设备进行监控是非常重要的一项功能,用户远程监控家庭设备的过程本质上就是用户移动终端和家庭数字设备之间的数据交互过程。本文所
物联网基于互联网、电信网等信息承载体,通过对物理世界和信息空间的互连和整合,给人们提供智能服务。如何将互联网和无线传感器网络更高效快捷地互连,并如何在此基础上提高
随着通信技术的飞速发展,人们对获取信息的方式也在不断的变化,从最初的报刊,杂志,然后到Internet,现在正越来越向更加方便,更加轻巧的手机等智能客户端转化。但是如何能够快
随着人们对移动信息服务需求的日益增长,基于IEEE 802.11的无线局域网技术被广泛采用。在网络应用的功能越来越丰富的同时,用户对网络性能的要求也越来越高,其中一个非常迫切
随着信息化的快速发展,越来越多的关键信息需要转化为数字化的形式并存储在可管理的介质中,网络对于存储和管理信息的能力产生了新的需求。而当前主流的存储技术NAS、SAN等各
当今的社会处于信息爆炸的时代,企业数据仓库中数据的数量日益庞大。数据挖掘应用能够从数据中抽取潜在的有价值的知识,提供更丰富的数据支持,帮助企业领导在业务管理和发展
将住宅中各种通信设备、家用电器和家庭保安装置通过内部网络连接到一个智能控制系统上进行集中或异地监视、控制和事务管理的智能家居(Smart Home)系统,已成为近年来的一个