基于免疫网络的文本挖掘方法研究

来源 :长沙理工大学 | 被引量 : 1次 | 上传用户:fine_yhy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展及其在全世界范围内的普及和应用,网络上存储了海量的信息资源,这些信息资源数量与日俱增,尤其以Web页面为载体的文本数据呈爆炸式的增长并越来越成为人们关注的主要信息来源。如何从数量庞大的文本信息中快速有效地发现知识已经成为人们迫切需要解决的问题;近年来针对文本数据的挖掘已经成为人们重点研究的课题,其中对文本的聚类研究引起了广泛的重视。本文首先介绍了文本挖掘的研究背景和发展现状,对文本挖掘中的文本聚类算法的相关技术进行讨论,针对文本表示模型、特征词提取、特征向量降维及文本相似度的计算等与文本聚类密切相关的关键技术进行了描述与分析,在次基础上展开文本聚类算法的研究。实现文本聚类算法的动态适应性是当前文本聚类算法研究的重要方向之一。本文在研究人工免疫网络(aiNet)模型的基础上,结合文本聚类的特点,对aiNet算法进行改进,实现了基于aiNet的文本聚类算法,为实现文本的动态聚类提供了一种新的解决思路。为克服基于aiNet的文本聚类算法在处理高维数据时性能下降的缺点,本文研究了免疫遗传机制和k-means聚类算法,将免疫遗传引入k-means算法优化聚类中心,提出一种基于免疫遗传的k-means文本聚类算法IGAK,有效避免了经典k-means算法易受初始聚类中心选择不当的影响而陷入局部最优的缺点;在此基础上设计了一种基于聚类中心的虚拟坐标映射机制的文本表示模型,实现了文本向量模型的降维技术;结合该虚拟坐标向量模型,定义了抗体、抗原、亲和力、相似度等概念,提出一种融合免疫遗传k-means和aiNet的两阶段文本聚类算法IGAK-aiNet。最后,设计并实现了一种文本聚类模型,给出了模型的主要模块设计、必要的数据结构和部分代码;应用相关文本数据进行了对比实验,实验结果表明新算法具有较强的动态适应性,改善了聚类质量。
其他文献
语音增值业务在中国自上世纪九十年代产生以来,经历过辉煌也有过低谷。目前国内的语音增值业务市场存在严重的同质化竞争。但是由于其业务种类丰富多样、用户数量庞大,仍是一
人机交互技术是世界各国在21世纪重点研究的一项关键技术,它是当前信息产业竞争的一个焦点。虚拟人合成技术为实现和谐的人机交互提供了重要的理论与技术基础。本文对情绪状
数码印刷客户服务系统是以“快克”数码印刷公司的实际需求为背景而开发的一个综合管理系统。其开发对于提高业务处理的效率和服务质量具有非常重要的实际意义。系统覆盖了数
近年来,传统落后的工艺技术手段和迅速膨胀的市场需求之间产生的矛盾日益加深,这严重阻碍了我国制造业的发展。如果不加大对传统落后工艺技术的改造力度,尤其是与计算机应用
随着计算机技术的发展,软件系统的可靠性问题越来越受到人们的重视。尤其对于安全关键系统,如何提高此类软件系统的可靠性已成为一个非常重要的研究方向。测试方法可以提高系
资产效率最大化和成本最小化是资产密集型企业的核心竞争力,如何提高资产密集型企业的核心竞争力是企业关心的重大问题。随着信息技术的发展,以及资产管理理念的不断更新,集团型
如今,计算机网络的规模迅速发展,基于网络的通信成为网络应用中最重要的组成部份,几乎所有的组织、机构和个人都依赖诸如电子邮件一类的网络通信工具进行信息交流。随着网络
在时态数据库的操作中,我们通常都希望它能有一些良好的特性,如方便的数据库维护,较少的时间和空间开销,较高的时空运行效率,以及对某些查询中出现问题的解决等。无环数据库
高速网络的发展使得将分散的、异构的计算资源有机地整合到一起形成计算网格成为可能。计算网格为解决科学和工程领域一些大规模计算问题提供了理想的平台。由于网格所具有的
当今,电信网和计算机网络飞速发展,在带来巨大的经济效益的同时也产生了网络犯罪问题。另一方面,一些人或者机构出于特定目的,对电信网和计算机网络上的信息进行非法侦听。既要打