【摘 要】
:
在互联网中,以新闻、电子书以及其它形式存在的信息正在高速增长,如何有效地运用海量信息成为人们目前面临的一个关键问题。为了梳理各种杂乱的信息,有监督的分类方法被用于大规
论文部分内容阅读
在互联网中,以新闻、电子书以及其它形式存在的信息正在高速增长,如何有效地运用海量信息成为人们目前面临的一个关键问题。为了梳理各种杂乱的信息,有监督的分类方法被用于大规模文档分类,但此类方法都有一个内在的缺点,即需要大量的人工干预才能获得比较好的分类结果。为了解决人工干预问题,本文重点研究在文本数据挖掘中引入无监督的大规模文本聚类方法。
首先,本文对文本聚类技术的现状和发展进行了简要的回顾。文中分别对文本信息预处理的相关技术和文本聚类算法作了分析。文本信息预处理主要包括文本分词、文本特征提取和文本相似度计算等部分。文本聚类算法部分主要介绍了目前已有的各种聚类算法并对其进行比较分析,包括K-means聚类算法、凝聚层次聚类算法、基于密度的聚类算法、基于遗传算法的聚类算法和基于蚁群的聚类算法等。本文根据文本聚类算法的特殊性,在快速分词的方法中,采用分级词库的处理方法;在文本信息存储处理中,采用压缩处理的方法。
然后,本文着重研究了基于蚁群算法的文本聚类算法。在改进蚁群算法的同时,将凝聚聚类算法融入蚁群算法框架,进一步提高聚类的速度。在分析蚁群算法在文本聚类中的优缺点基础上,针对蚁群算法放置物体时的分散状况,采用了紧凑算法;针对蚁群对选择物体的随机性问题,提出了基于评估函数的拾起物体算法;针对蚁群算法的终止条件难以估计和不准确的问题,提出了根据用户输入的预期类数和类内、类间距离相结合的判别方法;针对蚁群算法在引入随机计算时的复杂度问题,将放置物体的阈值参数修改为动态可变参数。在分析蚁群算法的框架基础上,利用凝聚聚类算法速度快的特点,融合凝聚聚类算法到蚁群算法,改进了蚁群算法收敛速度慢的问题。
最后,分别使用标准数据集和两个真实语料库对本文提出的基于蚁群和凝聚的混合聚类算法进行了实验,并对测试结果进行了比较和分析,采用基于外部度量的总F-measure方法和聚类时间对聚类结果进行评价。实验结果表明,本文提出的混合聚类算法对于处理大规模文本聚类问题具有较明显的优势。
其他文献
博弈论(Game theory)是研究竞争条件下决策分析的科学。它研究的典型问题是若干个利益冲突者在同一环境中进行决策以求自己的利益得到满足。近年来,博弈理论模型已经在计算机
增强现实近年来广泛应用于各个领域,是当前的研究热点之一。然而正确的感知增强信息仍然是一个巨大的挑战,深度失真仍然是广泛存在于增强现实中的感知问题。为了精准的注册虚拟
随着嵌入式设备和软件技术的发展,移动终端在人们的生活中扮演着越来越重要的角色,桌面应用正逐渐转移到手机平台上来,如电子商务,移动互联网应用等,因而安全性成为移动设备
面向服务的软件架构模式近年来得到了广泛的发展和应用,采用此种模式开发的软件系统具有组件复用性高、开发效率高和系统可维护性好等诸多优点,因此在一个行政单位内部开发多套
传统的项目管理软件虽然对项目的时间和人力资源提供了出色的计划和跟踪功能,但并没有提供对流程和管理上的实时性协作服务。团队合作很难仅仅依靠应用软件来彼此协调,管理人员也无法得到项目的精确进度数据,无法估计未来可能发生的风险,为此额外大量地投入了人性的管理。现代项目更需要在细节和流程上加大控制和协调,将项目管理系统中的资源和流程有机协调统一在一起。在当今全球性商业合作的大环境下,高效的协作是成功的关键
自70年代后期以来,现代密码学飞速发展,各种各样的密码原语被提出并构造出来,例如众所周知的公钥加密方案、数字签名方案和基于身份的加密方案等等。在现代密码学安全定义中,
飞思卡尔半导体于2004年推出S08系列微控制器(MCU),是非常具有市场影响力的8位微控制器,它是高性能与低功耗的完美结合,其性能可与部分16位微控制器相当。经过近几年的发展,S
随着计算机科学的发展,工业界越来越重视系统的正确性和可靠性,这样使得形式化的模型验证方法得到了广泛地应用。通过可达性分析,模型检测可以完成对实时系统的安全性和活性的验
本文基于IMT-Advanced收发系统,设计并实现了提供数字预失真功能的硬件平台。该平台可以实现传输信号的线性放大,从而提高信号的传输质量,降低误码。文章首先对IMT-Advanced
IVVR(Interactive Voice and Video Response,交互式语音及视频应答)是目前新兴的多媒体增值业务,其前身为传统的IVR (Interactive Voice Response)。IVR以统一的应答形式,为