文本聚类算法的研究及应用

来源 :电子科技大学 | 被引量 : 9次 | 上传用户:bainiao528
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是文本挖掘的一项重要技术,可广泛应用于文本挖掘与信息检索等方面。在大规模文本集的组织与浏览、文本自动分类等方面都具有重要的应用价值。随着互联网技术的高速发展,网络上文本信息的增长率急剧增大,如何对这些网页中的文本内容进行有效的聚类分析已至关重要。因此,对互联网文本信息进行聚类及相关分析处理具有重要的意义。传统k-means算法具有算法简单、可伸缩、高效性等优点,但初始中心点的选取会对聚类结果产生较大的影响。提出了一种k-means算法的改进算法KMDE,利用差分进化算法寻找最优的初始中心点,可有效地改善k-means聚类效果。并将KMDE聚类算法应用到互联网文本信息处理系统--IPS中。IPS系统主要实现了四个独立模块,每个模块及其功能介绍如下:(1)数据预处理模块:主要实现文本过滤、中文分词、特征选择等功能,最终将文档集中的中文文本生成固定格式的文件。(2)数据分析模块:对已处理成特定格式的数据,选择不同的聚类算法实现对中文文本内容聚类,并将聚类结果以不同的形式输出显示并存储。还可利用BayesNet分类算法对中文文本进行自动分类。(3)信息展示模块:根据关键词搜索数据库的数据记录,并将搜索结果返回到客户端浏览器显示。此外,还实现最新消息展示功能,可将采集到的最新消息呈现给用户。(4)信息采集模块:获取Internet网页数据信息;对网页正文内容及其他相关信息进行提取、存储。对各模块的功能进行测试,结果表明IPS系统能够很好地完成对互联网文本信息进行聚类及相关分析处理。
其他文献
近些年来,计算机分布式仿真技术的发展逐渐使人们对计算机的协作支持能力提出更高的要求。不仅能够很好的支持诸如管理、讨论和设计中的协作,还能够实现异地、分布的建模,仿真人
本文改进了原有蚁群算法中的局部搜索过程,并以此为基础给出了一个解决二次分配问题的改进蚁群算法。具体包括以下几个方面:提出了一个结合信息素特征的二交换局部搜索。在
随着市场竞争的日益加剧,产品质量成为企业求得生存、赢得竞争的最有力武器,如何在产品整个生命周期有效地实施产品性能的质量检验管理,使产品性能在得以保证的基础上持续地
MVC(模型-视图-控制器)结构由三部分组成:模型、视图和控制器。模型代表数据层;视图代表信息的表示层;控制器接受用户提出的请求,并决定由哪个业务逻辑负责处理。基于MVC结构开发
中文文本过滤模型的基本思想是根据基于语义框架的用户模板,首先,收集框架各槽的关键字,经过概念扩充,形成扩充的关键字模板,利用统计方法进行粗选;然后,对文本窗口进行汉语语
  目前在软件开发过程中,关注的焦点是代码,软件开发也是以代码为核心。但是,纵观软件开发的发展历史,程序设计语言还将经一步抽象化、智能化,关注的焦点也将是更高的一个层次—
Web挖掘就是利用数据挖掘技术从Web文档和活动中发现有用的知识。在电子商务中,运用数据挖掘技术对Web服务器上的日志数据和交易数据进行挖掘,得到用户的查找模式,以及客户的
本文探讨了数据仓库和OLAP技术的基本理论和实施方法,并探索了基于统计决策的模式识别理论及时间序列预测算法。结合铝用碳素回转窑生产实际,将模式识别中简单距离分类算法
本文以铝板轧制过程精轧机组为研究背景。论文从提高轧制过程机组控制精度的实际需求出发,在原轧制力预报系统引入BP(反向传播,BackPropagation)神经网络的基础上,开展了应用IGL
《煤矿井下安全信息系统》专为解决井下安全生产和救援研发,可有效提高井下安全的监控、管理和应急救援处理能力。它是以计算机集成制造哲理为指导,以计算机技术为核心,以地