基于支持向量机的一体化分词聚类研究

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:kong26
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究的目的是建立一个统一的分词,聚类,语义空间模型。我们使用了面向对象的方法,有利于本系统的结构的升级和修改。   本文主要的工作由三部分组成:分词,聚类,使用分词、聚类的结果建立语义空间。分词,聚类统一使用统计学习的方法进行处理。   分词技术是进行高级自然语言理解,检索,等工作的前提。本文通过统计学习理论,着重研究在小样本情况下的统计规律及学习方法性质。它为机器学习问题建立了一个较好的理论框架,也应用发展了一种新的通用学习算法:支持向量机(SVM)。本文从支持向量机理论、方法和应用结合的角度出发,研究了支持向量机在中文分词中的应用。   然后对于分词结果建立倒排索引的同时,进行词聚类。这同样也使用到了支持向量机。对于分词时用到的统计信息可以在聚类时继续使用,降低了程序的代价。这是一种提高效率的方法。   最后,研究了语义空间建立的问题,使用分词,聚类的结果,使用PLSI方法建立语义空间矩阵,对文章进行浅层次的理解。   经过调试和运行,本论文研究设计的一体化分词聚类,建立语义空间方法能够达到设计要求,改善了语义空间建立耗费巨大资源的局面。
其他文献
感应耦合电能传输(ICPT)技术是一种基于电磁感应效应而实现电能近距离无线传输的技术。一方面,利用一般的参数优化方法设计出的ICPT系统存在不能同时满足多个设计目标,灵敏度高等缺点,这限制了其有效性与实用性。这是因为,首先,实际应用场合通常都要求满足多目标的系统。其次,实际环境中无法避免的多变性与不确定性会导致一个灵敏的ICPT系统性能急剧下降,甚至可能到不可用的地步。如何使设计的ICPT系统满足
1928年杭州国立艺术院创办成立,与远在北平的艺专一起,开始了现代中国美术漫长而辉煌的发展时期。借鉴西方学院式写生教学,可谓是20世纪中国美术教育横空出世的一大壮举,林风
污水处理系统由于污染物质的多样性、复杂性和变化性,属于难以控制的复杂工业过程。而模糊控制中的模糊推理规则和隶属函数的选取往往是依据相关专家或技术人员的实际经验,具有
钢铁工业是高能耗行业。煤气系统是钢铁企业能源系统的重要组成部分,钢铁生产过程中产生大量二次能源,副产煤气在其中占有较大比重。在钢铁企业搞好能源管理工作,特别是煤气
学位
包含随机输入及其它外部干扰、非线性项与不确定动态的随机系统广泛存在于工业过程、化学化工、航空航天等实际应用中,其中含有非高斯随机变量的复杂随机动态系统已经成为控制
纹理合成及纹理映射是三维模型获得真实感的重要技术,是计算机图形学领域的研究热点。纹理合成和纹理映射在虚拟现实场景、三维动画制作、游戏以及虚拟博物馆等领域得到了广
核磁共振(MRJ)脑图像的颅内各组织边界复杂且不规则,所以对其的分割是医学图像处理一个重要而困难的课题。支持向量机(SVM)是一种全新的模式识别技术,其思想是建立在统计学理
小波变换可以实现对一维信号的稀疏表达,并且自1995年Donoho等人提出阈值方法之后,基于小波变换的阈值去噪方法得到了广泛的研究,并取得了良好的效果。图像具有多方向性和各
最后,针对每个模态都存在执行器故障的垂直起降飞机切换系统模型,设计三个具有级联结构的扩张故障诊断观测器系统分别估计每个模态的未知故障信息,利用最优控制技术和积分滑
随着网络技术和多媒体技术的迅速发展,媒体影视数量不断增加,如何在海量存储库中寻找自己感兴趣的视频成为一个新的问题。尤其是随着智能手机的普及和三代视频(3G)的到来,如