【摘 要】
:
随着计算机与互联网技术的发展,数据资源日益丰富,但是隐藏在大量数据资源中的知识却没有得到充分的利用。Web挖掘可以快速有效地获取Web上有用的信息。因为Web上的信息主要以
论文部分内容阅读
随着计算机与互联网技术的发展,数据资源日益丰富,但是隐藏在大量数据资源中的知识却没有得到充分的利用。Web挖掘可以快速有效地获取Web上有用的信息。因为Web上的信息主要以文本的形式表示,而文本聚类作为文本挖掘的一个重要分支,可以更好地发现文本数据中隐藏的类别特性。所以对Web文本进行聚类分析具有重要的实际价值。目前对于文本聚类算法的研究有许多,研究主要集中于对单一聚类算法的改进及探讨相关参数这两方面。但是单个聚类算法存在结果不稳定、随机性大的问题,现有研究趋向于集成多个聚类的结果。利用集成学习技术来改善聚类性能成为了一个新兴的研究热点。本文研究的重点是集成聚类方法。本文介绍了课题的研究背景和国内外研究现状,并阐述了文本聚类及集成聚类的相关理论和关键技术。详细介绍了文本表示方法、特征选择方法、相似性测度等文本预处理技术,并对共识函数的设计方法进行了深入探讨。当前文本聚类集成方法中大多不考虑进行集成的聚类成员的质量,而当部分成员的质量较差或者有噪声干扰时会影响最终集成结果。本文在对已有单个算法和聚类集成算法进行了研究和分析之后,针对现有集成聚类算法的不足,提出了一种加权聚类集成算法。算法的主要思想是通过评价聚类成员的综合聚类质量以及分析成员之间的差异度来设计各个成员的权重,进而得到更好的融合结果。最后,本文设计了一个文本聚类原型,并将提出的加权集成算法在文本中进行应用。在本文实验中,把加权的集成算法WCSCE与没有加权的集成算法CSCE以及单一K-means算法进行对比分析,验证了加权算法的可行性及有效性。
其他文献
传统群体仿真技术常把群体看成若干个体的组合,但事实上群体是由若干具有相似行为的个体组成的群组所构成的。针对大多数现有群体仿真技术由于没有考虑到上述因素,导致仿真结
分形几何为人们描述客观世界提供了一种比欧式几何更加有效、客观的工具,并在自然科学和社会科学中得到了广泛的应用。本文在研究分形理论后,对传统基于分形维数的边缘检测算法
音乐分类作为音乐信息检索(Music Information Retrieval,MIR)领域的一个重要分支,常用于音乐检索和音乐推荐。现有的音乐分类方法从音乐的流派、感情、乐器、艺术家和标注五
有限元分析(Finite Element Analysis)是最常用的工程分析模拟方法,已经被广泛应用于复杂产品的设计与开发中。有限元网格模型生成是进行有限元分析的关键一环,其质量直接影响分析的精度与速度。为了保证有限元网格质量,在有限元网格生成后需要对其进行拓扑优化,然而现有拓扑优化算法都十分耗时。为此,本文研究基于样本学习的有限元网格拓扑优化方法,将机器学习技术引入有限元网格拓扑优化之中,以提
近年来,随着互联网的快速发展,互联网上的信息量日益增长且呈现多元化的特点。于是如何能够迅速、准确而高效地为互联网用户定位所需要的信息,成为搜索引擎的主要目标。通用
随着网络与应用的发展,信息呈爆炸性增长趋势,数据达到前所未有的规模,大规模数据中心的存储压力正迅速增长。基于分布式哈希表(DHT)的对等存储系统由于其良好的扩展性以及快速
自然语言理解是人工智能领域的核心课题,其语义模糊特性深刻影响着自然语言理解研究。模糊语义的量化问题一直是计算机和语言学界关注的热点,本文基于中介真值程度度量方法研
随着计算机应用的不断发展,要求大幅度地提高企业基础信息运营部门的工作效率和质量,各行各业都迫切需要通过面向业务的监控管理平台,来实现面向业务、自上而下的从IT基础架构到
当前移动智能终端设备数量增长迅猛,性能提升显著,在满足用户需求的同时,凸显了其固有的能耗与电池容量之间的矛盾。动态电压频率调节(DVFS)是能够有效解决这种矛盾的一种机
煤矿顶板事故是我国煤炭开采过程中的主要灾害之一,为保障安全生产各煤炭企业大都建立了矿压、微震、地音、顶板离层等监测系统,这些手段虽能从不同的侧面反映顶板安全状况,但一