网络文本信息聚类算法研究与应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:gyl5667661
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术在全球范围内的迅速发展与普及,网络信息资源日趋丰富且内容复杂多样,其中既有大量进步、健康的信息,也不乏反动、迷信的内容。因此,如何对这样庞大的信息资源进行快速有效的检索分析,对网络舆论进行准确的预测引导成为一个重要而迫切的研究课题。于是,数据挖掘这门技术应运而生,它以数据库技术为基础,融合统计学、机器学习、模糊学等多门学科的成果,研究如何从数据库中提取隐含的、未知的有潜在应用价值的信息或模式。聚类分析在这项技术中占有重要的位置,它通过比较数据的相似性和差异性将一个数据集合分割成几个称为类的子集,从而发现数据信息的内在特征和分布规律。本论文在系统回顾网络信息检索、数据挖掘和聚类算法应用研究现状的基础上,总结了目前通用的聚类算法存在的问题,试图设计一种适用于中文网络文本信息的聚类算法,并进而设计实现一个网络信息聚类系统。本论文的研究内容和创新工作主要体现在以下几点:(1)分析了几种通用的聚类算法,包括基于划分、基于层次、基于密度、基于网格和基于模型聚类算法,通过实验数据分析比较了几种算法的性能和优缺点,分析了它们在网络信息聚类应用中的缺陷。(2)研究了中文网络信息聚类应用中的几种关键技术,包括分词技术、文本表示、特征降维、权重分析和相似度计算。(3)引入二叉检索树对后缀树聚类算法在中文网络信息聚类中的应用进行了研究和改进。(4)对典型的k-平均算法、后缀树聚类算法和改进后的算法进行实验分析,在算法准确率和时间复杂度上进行了比较。(5)设计并实现了基于改进后缀树聚类算法的网络文本信息聚类系统,通过系统运行实验验证了改进的后缀树聚类算法在中文网络文本信息聚类中的可行性和有效性。
其他文献
未来的无线通信网络必将是各种无线网络共存、相互补充、协同工作、支持终端无缝移动的异构融合网络,如何有效的利用各种无线网络的接入技术和各自的优势以取长补短,、融合的
新一代视频编码标准H.264是由ITU-T视频编码专家组VCEG(Video Coding Experts Group)和ISO/IEC运动图像专家组MPEG(Moving Picture Experts Group)共同制定的视频编码标准,这
纠错码是一种信道编码,它的目的是保证信息在信道中传输的可靠性,并能够自动检测和纠正误码。1948年香农发表了《通信的数学理论》,其中给出了设计纠错码的几个基本原则,为纠错码
在信息科技飞速进步的今天,各类信息系统被普遍地使用。然而,因为信息平台的创建具有阶段性、目的性和分散性等,数据异构性问题随之产生。数据异构问题的存在导致了各信息系统之
由于卫星通信在国民经济和军事等领域中的广泛应用,使得对其可靠性提出了很高的要求,特别是在战场环境中,电磁干扰可能瞬息万变,为了保证卫星在这种情况下以不变应万变,并能
随着无线通信技术的飞速发展,通信应用领域不断扩大,然而在高速移动场景下,由于多普勒频移大且信道状态变化快速,移动通信系统始终面临数据业务请求得不到满足的问题,使之成
基于内容的视频检索技术通过镜头边界检测、关键帧提取、特征提取、特征匹配等方法对数字视频作出摘要、浏览和检索,实现对海量视频信息的有效管理。镜头边界检测技术正是基
在2012年4月的CCMT2012上,结合这次展会主题“紧跟需求升级,加速结构调整”,西门子展台也贯彻了“产品定义在中国”的发展战略及其覆盖中国市场全系列产品和服务的实力和决心
互联网和多媒体技术的迅速发展,给人们带来极大的方便,同时也容易导致非法复制和肆意传播多媒体的问题,从而对多媒体所有者的知识产权造成侵害。随着数字音乐作品的广泛传播,
压缩感知(Compressed Sensing, CS)是Candes、Donoho等人于2006年提出的一种充分利用信号可压缩性或稀疏性进行信号采集、编解码的全新理论。CS在远小于奈奎斯特(Nyqusit)采