一种中文文本聚类方法的研究

被引量 : 0次 | 上传用户:clhhjq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我们可以很容易地从Internet、数字图书馆、新闻机构和公司内部网上获得数目惊人的文本文档。于是,人们对发展能够帮助用户有效地导航、总结和组织这些文本信息技术的兴趣越来越强。快速和高质量的文本聚类技术在实现这个目标过程中扮演了重要的角色。通过将大量信息组织成少数有意义的簇,这种技术能够提供导航/浏览机制,或者,通过聚类驱动的降维或权值调整来极大地改善检索性能。因此,文本聚类研究成为当前国际上数据挖掘的一个重要课题,国内中文文本聚类的研究正处于初期,还存在许多问题亟待解决。本文我们对此进行了研究。 首先,我们介绍了文本聚类的产生背景和发展现状,并对本课题的提出及研究内容、目标进行了论述。 然后,我们设计了一个中文文本聚类模型CTCM(Chinese Text Clustering Model),并针对模型中涉及到的特征表示、特征提取、特征向量调整和聚类算法等问题进行了研究。 其次,我们着重研究了文本聚类算法。对现有聚类算法进行了仔细分析,给出了两个文本聚类算法:EK算法和DBTC算法。对这两种算法进行了详细介绍,并分析了聚类实验的结果。 最后,讨论了中文文本聚类的一个应用,描述了一个电子邮件分类和过滤系统的设计。 本文获得的主要结果:提出了一个中文文本聚类模型,提出一种选取初始聚类中心的中文文本聚类算法和一种能发现任意形状簇的DBTC聚类方法。
其他文献
<正> 笔者根据子午流注纳子法,顺应脏腑气血流注,采用辰时针刺足三里穴治疗慢性胃炎68例,其中男40例;女28例。18~35岁50例;50岁以上18例。病程6~12个月30例;1~5年20例;6~10年11例
<正>定理1若P为正多面体内任意一点,则P到正多面体各面的距离之和为一常数.这是关于正多面体的一个众所周知的性质,其结论是显而易见的.事实上,设V,S分别表示正n面体的体积和
期刊
词汇教学在对外汉语教学中占据重要位置。词汇量掌握的多少对留学生的汉语学习与表达有着很大的影响。情景教学法是一种灵活的、生动的教学方法。教师可以根据教学内容、教学
本论文是对北京市一个典型的混合型城市社区的实证研究。目的在于:通过描述转型时期我国城市社区治理主体的权责、主体之间的相互关系、社区自治的居民基础等现状,揭示现有社区
中国高等教育近代化简而言之就是传统高等教育向现代高等教育变革与发展的历史过程。大学校长的治校理念是大学校长在办学过程中的指导思想即办学思想,是大学校长通过对时代的
<正>脊柱外科的手术涉及面广,脊髓、神经根及其主要血管受损伤风险较高。过去常采用局麻手术或全麻术中唤醒方法来避免术中损伤脊髓和神经,但这样增加了手术风险和患者的痛苦
目的最近报道TrkB的激动剂,7,8-二羟黄酮(7,8-dihydroxyflavone, DHF)可以通过提高轴突、肌肉再生和神经递质的传递而对神经兴奋性毒性、中风和帕金森病的动物模型有保护作用
Pt、Ru、Pd、Rh等铂族金属以及它们的合金通常具有良好的催化性能,作为催化剂材料被广泛地应用于能源转化、绿色合成等重大领域。具有纳米结构、纳米尺度的铂族金属纳米材料往