基于无指导的词聚类及在文本聚类中应用的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:jqh_0727
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词的分类问题是语言学和自然语言处理中十分重要的研究问题。由一些语义相近的词组成的词类(或词聚簇)可以看成是纷繁的个别词现象到语言的一般概念的映射,而这些概念是更加本质的,更具有一般性和稳定性。目前,词分类的主要方法包括两类:一类是基于语言学家的主观判断,通过语言学家手工地构造出分类词典,给出每个词的同义词或近义词;另一类是基于机器的自动聚类。本文研究的主要内容就是基于无指导的汉语词聚类及其相关应用。基于无指导的词聚类是通过在大规模的语料库中统计词的上下文信息,并利用传统的聚类算法最终实现词的自动聚类。 传统的聚类算法主要分为层次聚类和划分聚类两种方法。划分聚类算法是一种局部最优算法,初始点选择的好坏严重影响聚类性能。因此,本文在词聚类这一具体任务中,利用词在文本类别中的分布提出了一种新的初始点选取方法,实验结果显示其有效地改善了划分法词聚类系统的性能;层次聚类算法的主要不足是聚类过程中已做的处理不能被撤销,类之间也不能交换对象,一旦一组对象被合并或者分裂,而后进行的处理将在新生成的类上进行。因此,类间距离计算的准确程度是影响层次聚类性能改善的最重要因素。本文提出了一种新的用于计算类间距离方法K-LinK。该方法通过有效地利用类的形状、密度等重要信息提高类间距离的准确性,由此改善层次聚类算法的性能。 本文通过对实验结果的分析,讨论了上下文窗口大小对词聚类结果的影响;讨论了特征选择、权重计算对聚类结果的影响;讨论了相似度计算方法、聚类算法对性能的影响。在此基础上确定了聚类过程中的相关参数,最终将词聚类的处理结果应用于文本聚类,解决了文本聚类中文本对象的高维和稀疏的问题。
其他文献
随着医疗技术和嵌入式技术的发展与进步,可穿戴式医疗诊断系统的使用逐渐普及。通过配备便携式医疗设备,医疗救助可以在野外进行,为抢救患者的生命赢得宝贵时间。然而,新的应用带
随着数据库应用及信息检索技术的广泛普及,越来越多的非专业用户需要一种易于掌握的界面去访问所需的信息。数据库自然语言接口(NLIDB)技术在这种需求中应运而生。NLIDB是人工
移动Ad hoc网络是一种特殊的无线移动网络,网络中所有节点的地位平等,具有报文转发能力。虽然这种网络目前在很多领域得到应用,但是还存在一些问题。由于Ad hoc网络中节点的移动
准确预测高炉铁水硅含量是有效控制高炉的前提。高炉冶炼过程是十分复杂的物理化学变化过程,而且高炉内部的生产条件非常严酷,通过仪器测得的信息十分有限,所以高炉铁水硅含量的
随着基于Web的企业应用系统的发展,Web 开发在企业应用系统中所占的比例逐渐增大。目前很多基于J2EE框架的企业应用系统中Web开发水平较低,主要表现为开发中的各种逻辑混杂导致
目前,流媒体业务在互联网应用中的不断发展,但是其速度却难以满足网络用户日益增长的需求,内容发布技术与网络硬件设备正在面对严峻的挑战。 本文通过对比分析了传统内容发布
随着企业对工作效率要求的提高,工作流的应用越来越广泛,对工作流的研究也正向更深层次进行。工作流主要分为两部分:工作流模型的创建和工作流的执行。目前工作流建模工具界面
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点
受天气预报技术的制约,目前国内市场尚无法提供高精细化的气象信息,在一定程度上影响了我国气象经济的总体规模,但是我国幅员辽阔,容易遭受各种极端天气的危害,相关行业急需不同领
嵌入式系统是以应用为中心,以计算机技术为基础,并且软硬件均可裁剪,适用于应用系统对功能、可靠性、成本、体积、功耗有严格要求的专用计算机系统。在嵌入式系统需求不断增长的