聚类/分类理论研究及其在文本挖掘中的应用

被引量 : 137次 | 上传用户:ling1945081
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何让Internet更好地为人类服务,是未来几年的一个真正挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。基于人工智能的信息内容的自动聚类、分类和文摘,以及深层次的“知识检索”为迎接这个挑战提供了新的支撑技术。本文的目标就是在信息检索的背景下,从理论、算法和应用三个层次来讨论聚类和分类技术。 本文首先全面分析了聚类和分类算法的关键技术,总结了在统计、机器学习和模式识别等领域的聚类/分类算法。 本文随后从理论的层面来剖析聚类/分类算法。我们发现聚类过程实际上是在样本集上定义一种特定的等价关系,一个逐渐加细的等价关系序列和聚类谱系图是相对应的,不同的等价标准就导致了不同粒度的聚类结果。从信息粒度的角度看待聚类和分类,就能更清楚地看出它们之间的相通之处—聚类是在一个统一、均匀的粒度下进行计算,而分类是在非均匀粒度下进行计算。由此出发,还可以定义一种衡量特征空间与分类先验知识之间协调程度的定量度量,并发展了一种崭新的、基于粒度的分类算法,实验结果表明这种分类算法有很好的泛化能力。 从拟物的角度出发,我们提出了一种针对实数变量样本的聚类算法。选定了特征空间之后,实际上就是把和领域相关的样本集转化成特征空间中的一群点。把这些点想象成物理世界中一群质点,它们除了坐标不同之外,其他方面没有任何的不同。这样,在由各质点形成的引力场中,从等势面的包含关系导
其他文献
采用双螺杆挤出机制备了聚对苯二甲酸乙二醇酯/聚对苯二甲酸丙二醇酯(PET/PTT)合金以及该聚酯合金基蒙脱土(MMT)复合材料。采用扫描电镜(SEM)观察了聚酯合金以及聚酯合金基蒙
城乡基层环境治理是一项复杂的系统工程,但各执法职能部门在执法上互相之间的配合性以及协调性较差,这些问题大大影响了执法效果。部门分散执法的城市管理执法模式,无论是在
高等教育资源配置作为一项制度安排,在我国计划经济体制下是由政府集中管理的一套制度规则;但随着社会主义市场经济的建立,市场机制作为整个社会资源配置手段的作用越来越明显。
生物柴油具有良好的可再生能力、可降解性和环境友好性,其在发动机缸内的喷雾燃烧过程是生物柴油应用的关键步骤,雾化过程中形成液滴的大小与表面张力密切相关.因此,表面张力
第一部分 血管内皮祖细胞在血管瘤中的表达和作用 目的:婴幼儿血管瘤的具体发病机制目前仍不明确。近年来,有研究证实血管瘤中存在血管内皮祖细胞,提示血管瘤的发生可能与血
石油作为一种战略资源,现代工业社会的“血液”,石油安全关系着国计民生和国家安全;石油作为一种商品,其价格由价格规律决定,其波动受供求关系的影响,但是在某种意义上,又是
烟草是实行专卖管理体制的垄断行业,烟草原有的绩效考核体系主要以可以量化并易于操作的财务指标为主,这容易造成只注重企业的短期经济效益而忽略企业的长期发展战略。随着中
《远大前程》,作为狄更斯创作后期一部非常重要的作品,与他之前的作品有很大的不同,呈现出一种悲喜剧的特点,喜剧之中混合着很厚的悲剧色彩。本文作者在分析研究该作品和前人
香椿(Toona sinensis)是楝科香椿属的多年生落叶乔木。又名香椿芽,是我国特有树种,是“森林蔬菜”的主要品种,嫩梢可供食用,香椿芽是我国传统的木本蔬菜,芽质脆、多汁,香气浓郁、营
随着虚拟人在虚拟现实、娱乐、外科手术模拟等方面越来越广泛的应用,实时逼真地显示虚拟人越来越重要。在过去的30年间,研究人员在虚拟人皮肤的建模和变形方面做了大量的研究