聚类技术的若干问题研究

被引量 : 3次 | 上传用户：xiezhen120

【摘要】

：

聚类分析源于数学和统计学,应用于计算机科学、生物学和经济学等领域,它是数据挖掘技术中的经典方法,旨在针对数据对象的特点,基于某种相似性度量标准将数据对象聚集到相应的

【作者】

：

刘亚琼

【发表日期】

：

2014年01期

【关键词】

：

数据挖掘聚类分析多数据库聚类文本聚类 PAntSC~* Huffman树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析源于数学和统计学,应用于计算机科学、生物学和经济学等领域,它是数据挖掘技术中的经典方法,旨在针对数据对象的特点,基于某种相似性度量标准将数据对象聚集到相应的簇中。该方法首先针对待分类数据的特点进行透彻的分析,并构造相似性度量准则,然后基于相似度设计相应的聚类算法,从而实现分类的目的。虽然聚类分析方法在文本分类、Web页面分类、Web用户分类及空间数据分析等问题中已取得了成功的应用,但不同的应用环境下,各种方法的效果也各不相同。因此本文拟深入讨论聚类分析方法在多数据库分类及文本分类上的应用。大型企业,尤其是跨国公司,随着信息技术的进步、自身规模的发展和分支机构的扩充,积累了越来越多的事务数据库,学术界称之为多数据库。多数据库不仅包含的数据库数目众多,其中各数据库所积累的数据量也非常庞大,传统的单一数据库挖掘技术已无法满足多数据库挖掘的需要。事实证明先对多数据库分类再按类挖掘模式的方法是目前最有效的挖掘策略,因此多数据库分类已成为聚类分析所需解决的新的技术问题。本文针对多数据库中数据对象的特点,基于当前的研究基础,构造了新的优秀度衡量标准,并设计了相应的聚类算法。文本是广为使用的信息载体,文本信息处理是一种涵盖了统计学、机器学习、模式识别及数据挖掘等技术的多学科综合研究领域。由于文本数量的庞大,最有效的挖掘方法是先对文本进行分类,然后以类为单位挖掘模式,因此,文本分类已成为文本信息处理中的一项重要课题。文本是词的集合,在某种程度上,文本中的词等同于事务数据库中的事务项,因此文本数据对象与多数据库数据对象有着内在的关联,多数据库分类中所建立的聚类策略可以映射到文本分类问题上。研究过程中,首先详细了解了聚类分析方法的技术基础,深入研究了多数据库和文本挖掘的理论知识；然后根据多数据库数据对象的特征,构造了新的聚类优秀度评价标准,并将这一标准类推到文本分类中；最后分别针对多数据库和文本对象设计了相应的聚类算法,并用实验证明了算法的有效性。主要研究内容如下：(1)在现有多数据库聚类算法的基础上,提出了改进方法。虽然多数据库聚类算法已取得一定的成果,但目前的方法仍可能在选择最优聚类的过程中错过真正的最优结果。对于这种情况,我们在现有算法的基础上提出了一种改进方法,旨在得到完全的候选聚类集合,并在人工数据集上进行了实验,结果表明该算法能得到更优秀的聚类,但是算法的时间复杂度相对较高,适用于精度要求较高的分类环境。(2)设计了一种基于PAntSC*算法的多数据库聚类方法PAntSC*算法已被应用在文本分类中,但需要事先提供目标类别的个数,本文在PAntSC*算法基础上进行了改进,并应用于多数据库分类问题上。聚类过程中,我们首先根据各数据库的轮廓系数建立数据库聚类序列L,然后基于改进的PAntSC*算法将数据库依次聚集到相应的类别中,最后根据结果评价标准确定最优聚类。该方法避免了Huffman算法需要事先指定类别数量的局限性,应用性能较强。(3)提出了一种基于Huffman树思想的文本聚类算法文本是句子的集合,句子由“词”构成,事务数据库是记录的集合,记录由事务项构成,因此文本分类和多数据库分类中的数据对象间存在着内在的关联。我们利用在多数据库分类中所积累的技术方法,针对文本数据的特性,构造了新的文本相似性度量准则,提出了基于Huffman树思想的文本聚类算法,并根据优秀度评价标准筛选出最优的聚类结果。针对我们所提出的方法,在中文分类语料库上进行了实验,虽然得到的结果并不是最理想的,但证明了该文本聚类算法的可行性。本文针对聚类分析方法在多数据库和文本分类上的应用展开了研究,提出了三种聚类算法,并通过实验验证了算法的可行性。本课题所探讨的问题理论上夯实了聚类技术基础,应用上为多数据库分类和文本分类提出了新的聚类方法。

其他文献

不小心就成替罪羊

多年以前，北京菜市口，一群人正在行刑，刽子手一刀一刀地割着肉，每割下一块，围观的群众马上买来，就着酒吃下去，大叫痛快。受凌迟的这个东莞人，就是袁崇焕，他没有嚎叫，只是一声声的叹息。

期刊

替罪羊

论大学生爱国主义教育的有效途径

论大学生爱国主义教育的有效途径王建平中宣部拟定的《爱国主义教育实施纲要》指出：“学校是对青少年进行教育的重要场所，要把爱国主义教育贯穿到幼儿园直至大学的教学、育人全

期刊

爱国主义教育爱国主义教育实施纲要基础性工程有效途径

大学生创业创新基地的构建与实施

创业创新基地是培养学生创造能力和创新意识的重要保障,是大学生综合素质提高的关键环节.主要从创业创新基地的基本内涵、校内外基地构建、基地管理机制和运作模式等方面阐述

期刊

大学生创业创新基地构建与实施

我国高校体育网站建设研究

高校作为国家推进教育信息化建设的前沿阵地，其网站的建设至关重要。它不仅是高校的信息化建设水平的标志性建筑，同时又是学校教育的窗口。学校或部门网站的优劣，已成为衡量一所

学位

高校体育网站建设

热能刀、等离子刀及传统切割法行扁桃体切除术的比较分析

扁桃体切除术是耳鼻喉科很常见的手术之一,其手术方式已由原来单一的传统法割法,发展成现在多种形式的切除方法,其中等离子刀切割法,热能刀切割法及传统切割法为其中较为流行

学位

扁桃体手术热能刀等离子刀传统切割法

大学英语教师职业倦怠和心理控制源的相关性研究

职业倦怠是美国临床心理学家赫伯特.费登伯格于1974年研究职业压力时首次提出的。职业倦怠现象经常出现在以人为服务对象的行业中。国内外学者研究发现,作为教育事业专业工作

学位

职业倦怠心理控制源大学英语教师

格氏试剂的形成及某些单电子转移反应

本文介绍了格氏试剂的形成机理、组成、结构以及某些经由单电子转移的反应,对于深入了解这方面内容具有一定意义。

期刊

格氏试剂单电子转移反应机理

国家利益拓展背景下的海上通道安全研究

海上通道是濒海国家生存和发展的命脉，对国家安全和经济发展具有重要意义战争时期，海上通道是各国向战区输送军队武器装备和各种补给的生命线，因此保障海上通道安全对维持军队持

学位

海上通道国家利益拓展对策互利共赢

机关事业单位信息化建设的管理流程解析——以市政投资项目为例

当前许多基层单位信息化建设水平滞后，但由于资金、技术资源的匮乏，依靠自身力量无法着手开展软硬件建设。必须结合相关的文件法规，借助政府城市信息化建设专项资金的配备，通过采

期刊

机关事业单位市政投资信息化建设项目管理

对初中数学学困生有效辅导方法的浅议

如何帮助学困生做好转化工作,是广大初中数学教师一直面对的问题,本文针对学困生专门设计了几种教学方法,期望对致力于辅导学困生取得好成绩的教师提供一些指导.

期刊

初中数学学困生转化教学方法

聚类技术的若干问题研究

与本文相关的学术论文