论文部分内容阅读
文本相关性度量是中文信息处理中一个非常基础且关键的问题,在文本相关性度量方法中采取的主要计算方式是文本相似度计算。目前,向量空间模型(VSM)作为绝大多数文本相似度算法的基础,已经有着很广泛的应用研究,但这种方法在解决高维度、稀疏问题的文本聚类方面有着很大欠缺,严重影响了文本相似度算法的计算效率和准确度。子空间聚类是在传统聚类方法上的一种拓展,其思想是在高维度的数据中进行局部维度搜索,将聚类技术应用在高维度空间的一个小单元空间中,加快相似对象的聚类,在解决高维度和稀疏问题方面有着突出的贡献。对此,论文提出基于子空间聚类的思想来进行文本相关性的研究。主要研究工作分为以下两个方面:1.提出基于子空间特征划分的文本相似度算法结合带权无向图和子空间文本特征自动划分思想,提出基于子空间特征划分优化的文本相似度计算算法。首先对子空间聚类的初始中心点进行优化处理,获取初始位置最佳的中心点集合,解决初始位置选择不当影响聚类效果的问题;然后在子空间聚类时对目标函数最小化过程进行优化,通过迭代更新的方法达到子空间特征自动划分的目的,进而提高子空间聚类效果;最后结合文本相似度计算方法对论文算法和其他算法进行比较,本论文算法就准确度、运行速度以及F-度量值标准而言优于其他子空间聚类算法。2.提出基于子空间关键词加权的文本相似度算法结合投影技术和文本关键词加权计算相似度方法,提出基于子空间关键词加权优化的文本相似度算法。首先该算法以文本子空间表示理论为基础,将文本数据集中的各个数据利用投影技术映射到文本子空间中;然后对目标函数中的参数进行迭代更新来达到文本子空间模型优化的目的;最后通过改进传统的TF-IDF计算方法来优化文本相似度的计算,解决了关键词权重信息影响计算结果的问题。该算法对于解决结构复杂、知识稀疏的文本数据具有很好的效果。