基于子空间聚类的文本相关性研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：ahclgc

【摘要】

：

文本相关性度量是中文信息处理中一个非常基础且关键的问题,在文本相关性度量方法中采取的主要计算方式是文本相似度计算。目前,向量空间模型(VSM)作为绝大多数文本相似度算

【作者】

：

齐绪停

【机构】

：

山东师范大学

【出处】

：

山东师范大学

【发表日期】

：

2016年期

【关键词】

：

子空间聚类文本相似度高维度特征自动划分关键词加权

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本相关性度量是中文信息处理中一个非常基础且关键的问题,在文本相关性度量方法中采取的主要计算方式是文本相似度计算。目前,向量空间模型(VSM)作为绝大多数文本相似度算法的基础,已经有着很广泛的应用研究,但这种方法在解决高维度、稀疏问题的文本聚类方面有着很大欠缺,严重影响了文本相似度算法的计算效率和准确度。子空间聚类是在传统聚类方法上的一种拓展,其思想是在高维度的数据中进行局部维度搜索,将聚类技术应用在高维度空间的一个小单元空间中,加快相似对象的聚类,在解决高维度和稀疏问题方面有着突出的贡献。对此,论文提出基于子空间聚类的思想来进行文本相关性的研究。主要研究工作分为以下两个方面:1.提出基于子空间特征划分的文本相似度算法结合带权无向图和子空间文本特征自动划分思想,提出基于子空间特征划分优化的文本相似度计算算法。首先对子空间聚类的初始中心点进行优化处理,获取初始位置最佳的中心点集合,解决初始位置选择不当影响聚类效果的问题;然后在子空间聚类时对目标函数最小化过程进行优化,通过迭代更新的方法达到子空间特征自动划分的目的,进而提高子空间聚类效果;最后结合文本相似度计算方法对论文算法和其他算法进行比较,本论文算法就准确度、运行速度以及F-度量值标准而言优于其他子空间聚类算法。2.提出基于子空间关键词加权的文本相似度算法结合投影技术和文本关键词加权计算相似度方法,提出基于子空间关键词加权优化的文本相似度算法。首先该算法以文本子空间表示理论为基础,将文本数据集中的各个数据利用投影技术映射到文本子空间中;然后对目标函数中的参数进行迭代更新来达到文本子空间模型优化的目的;最后通过改进传统的TF-IDF计算方法来优化文本相似度的计算,解决了关键词权重信息影响计算结果的问题。该算法对于解决结构复杂、知识稀疏的文本数据具有很好的效果。

其他文献

抗去同步攻击的数字音频水印方法研究

随着互联网技术(特别是Internet)的发展以及多媒体信息技术的广泛使用,数字信息(包括数字音频、数字视频、数字图像等)的使用变得更加频繁和广泛.随之而来的就是人们对于数字

学位

音频水印特征点非下采样离散小波变换直方图去同步攻击

微型嵌入式实时操作系统mROS的设计与实现

随着嵌入式技术的发展,嵌入式系统得到了广泛应用。低端微处理器由于成本较低,仍然是许多嵌入式系统的首选目标。目前,基于低端微处理器的应用,主要采用前/后台系统的方式进

学位

嵌入式实时操作系统实时性微型性可移植性

基于关系数据库的本体抽取研究与实现

本体是一种能够在语义和知识层次上对信息系统进行描述的概念模型,主要应用在对知识的组织、表示和管理等方面。本体已经在信息系统的诸多领域中得到了广泛的应用,例如知识管

学位

关系数据库本体OWL本体构建模型转换

基于聚类和分类技术的文本分类研究

90年代以来随着信息存储技术和通讯技术的发展,大量的信息爆炸式增长,信息自动分类已经成为人们获取有用信息不可或缺的工具。文本分类是中文信息处理的一个重要的研究领域,

学位

分类技术文本检索文本分类聚类方法

无线传感网多级汇聚路由协议研究

无线传感器网络路由协议在整个无线传感网体系中起着关键的作用,路由协议的好坏直接决定了网络的性能、生存期、健壮性等指标。本文主要针对无线传感网中的路由协议,分析比对

学位

无线传感器网络路由协议多级汇聚路由路由空洞健壮性区域覆盖

多目标群搜索算法研究及其应用

多目标优化问题(Multi-objective Optimization Problems, MOPs)广泛存在于工程实践和科学研究领域。多目标优化问题主要研究如何在多个彼此间相互冲突的目标中得到最优解,该

学位

群搜索算法多目标优化多发现者交叉算子协同进化上下文向量虚拟网络映射

基于人工神经网络电信CRM的应用研究

随着我国电信行业的再次重组与3G牌照的发放,国内电信业的竞争日益加剧,而激烈的竞争也迫使国内各电信运营商不得不考虑寻求新的盈利模式,以及如何提升自身的核心竞争力。作

学位

数据挖掘电信增值业务客户关系管理BP神经网络核心竞争力电信运营商

分布式失效检测算法的研究

计算机通信和网络技术的普及和发展，使信息的处理方式发生了根本性的变化。由原来传统的集中式处理转变成分布式处理方式。分布在不同的地点、基于不同的平台与环境的多个计算

学位

分布式系统失效检测算法参数估计技术服务质量用户进程

分布式流处理系统中的容错机制和负载管理策略的研究

近年来,信息处理技术的应用领域得到了很大的拓展,如金融应用、电子商务、网络监控和实时分析等。在这些应用中,静态的关系数据已经不能满足人们的需要。在处理现实世界的实

学位

分布式系统数据流处理容错机制负载管理策略自适应修复

基于输出域测试用例自动生成的研究

随着IT产业的持续发展,大量的软件产品已经广泛应用在各行各业,为了提高软件产品的质量,越来越多的人力、物力用于软件测试。软件测试的重点是设计测试用例,如果测试用例能够

学位

测试用例生成实数编码遗传算法神经网络输出域

基于子空间聚类的文本相关性研究

与本文相关的学术论文