基于k-平均算法的文本聚类系统研究与实现

被引量 : 27次 | 上传用户:kissface
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际互联网和企业内部互联网的飞速发展,各种电子文本数据的数量急剧增加,如何快速有效的获取、管理和使用这些文本数据,已经成为信息系统学科迫切需要解决的重要问题。近年来,作为解决这些问题的基本工具之一,基于文本内容的自动文本聚类技术得到了空前的发展,引起了人们普遍的关注。文本聚类的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。作为文本挖掘的一个重要应用,文本聚类已经成为一个研究热点。本文以中文文本作为文本聚类的挖掘对象,并对中文文本聚类的全过程进行了研究,包括中文文本预处理、文本聚类,对文中所述方法进行了实验分析,并设计了一个系统,实现了文本聚类的功能。本文首先介绍了文本挖掘的研究背景、研究意义、研究现状和相关基本理论知识。其次,分析研究了文本的预处理过程,重点研究了中文文本的分词问题。本文采用基于词典的正向最大匹配法实现文本初切分,结合退一字回溯扫描的方法发现歧义字段,对歧义字段的处理采取的是基于统计词频的方法。对文本预处理的特征表示与特征选择进行了探讨,本文采用向量空间模型(VSM)对文本进行表示;而文本的特征选择则采用tfidf评估函数。接着,针对中文文本的聚类,本文采用了基于k-平均算法的二次文本聚类方法:先对文本集采用k-平均算法进行聚类,其中,参数k的确定是通过计算在一定范围内,k取不同值的情况下,使全体样本点的平均轮廓系数最大化的k值实现的;而初始聚类中心的选择是通过基于样本密度的方法实现的。并且,通过实验说明了采用这两种方法确定初始参数的可行性。对于首次聚类的结果,若某个簇包含的样本个数大大超过其它簇的样本个数,则对该簇再次进行聚类。最后,设计了一个文本聚类系统,测试了本文设计的中文文本二次聚类方法的聚类效果。测试结果表明,该系统能够达到将同类文本聚类的目的。
其他文献
目的深化护理教育,探讨护理本科生带教方法。方法选派有一定资格、高素质及临床经验极丰富的带教教师,要求主管护师以上资格,制订一些切实可行的带教措施,如岗前培训、制定周
对粉丝加工下脚料进行处理,利用其中的膳食纤维制作饼干。采用单因素实验的方法,研究了含膳食纤维饼干生产中各原辅料对饼干面团性能和成品感官质量的影响,确定了最佳工艺。
标准光源、目测检验和同色异谱马志尔(上海商检局)标准光源和目测检验各类商品的质量检验不外乎两个方面,一种是外观检验如色泽、疵点、缺陷、尺寸、美观等,另一种中内在质量检验
濒海作战是一种崭新的作战模式,它要求联合特遣部队能够高速通过危机四伏的海岸浅水地带,从而避免敌军利用复杂海况展开“非对称”攻击。
支持向量机作为一种基于统计学习理论的新型机器学习方法,较好地解决了非线性、高维数、局部极小点等实际问题,是机器学习领域新的研究热点。文本分类是基于内容的自动信息管
近些年来,经济全球化的迅猛发展促使跨国公司进行战略转移和对外投资,积极推行本土化战略。本土化战略已成为跨国巨头们实施其全球战略而采取的必要的、核心战略之一,成为当
成本是衡量企业竞争能力的一个关键指标,降低成本是当今企业普遍关注的问题。信息沟通不畅、缺少流程监督、费用分摊不合理、消耗控制不力和缺少科学的成本决策等等问题给许
燃气涡轮发动机作为一种动力装置已广泛应用于航空领域。随着航空事业的发展,对发动机涡轮叶片材料性能的要求越来越高。在沿海环境下工作的涡轮发动机,由于受到燃料燃烧时形成
横管降膜蒸发技术具有传热效率高,传热温差小,低温传热性能优良等优点,因此在低温多效蒸发海水淡化装置、制冷系统、石油化工等行业的蒸发器中得到了非常广泛的应用。本文以
当今世界,建筑业作为一种综合性、专业性服务的第三产业,在国民经济中的地位越来越重要。我国经过二十多年的改革开放,建筑业已发展成为国民经济的支柱产业。加入WTO之后,建