论文部分内容阅读
当前我们正处于网络信息爆炸的时代,虽然知识信息的获取方式变得简单,但在以几何级数增长的数据面前我们获取信息效率却变得低下。如何在海量数据中及时准确获取我们所需要的信息依然是一个困扰人们的难题。文本聚类技术可以将看似杂乱无章的数据聚合成基于某一主题特征的类别信息,方便我们能及时准确地发现有效信息。中文短消息文本由于其自身文本长度短、语义丰富、人们用语习惯导致的语法不规范、含有错别字以及以几何级数增长等特点都决定了短消息文本在聚类处理中有着相当大的困难。文本长度短有可能导致提取出来的文本特征没有意义,而错别字以及丰富的语义给自然语言处理带来了识别方面的困难,短消息、文本呈几何级数增长给聚类技术处理的效率带来了很大的挑战。现实中搜索引擎有时会对短消息文本不进行处理,但多数时候处理的效率比较低很难发现有价值有意义的信息。然而短消息文本中蕴含了丰富的信息,如何从中提取有意义的知识已经变得越来越具有实际意义。本文以中文短消息文本为研究对象,以短消息文本聚类算法的对比评价为主要研究方法,对短消息文本聚类的相关技术进行了研究:从抓爬技术从Web中获取短消息文本、分词技术对中文文本进行分词处理以及通过将文本向量化表示成计算机可以识别的模型之后进行聚类技术等进行相关的研究。涉及的主要内容包括:从短消息文本的获取,短消息文本的内容提取,短消息文本的去噪,短消息文本的分词以及去除停用词到短消息、文本的向量化表示,短消息文本的特征选择再到短消息文本的聚类算法等关键技术进行了一系列的探讨和研究。具体研究工作包括:(1)对网络爬虫技术的原理以及网络爬虫的工作方式进行了系统的介绍,之后运用网络爬虫技术进行了本文聚类研究的数据集的采集工作,接着详细地概述了中文文本分词技术的原理,中文分词技术的难题以及目前比较流行的中文分词系统运用,在此基础之上通过调用中科院分词系统(ictclas)将从Web上获取的短消息文本进行分词,在分词的基础之上运用停用词库去除短消息文本中的高频无意义词语,避免对聚类结果产生影响。(2)系统研究了中文文本向量化表示模型,文本的特征选择避免高维数据对文本聚类算法带来维度灾难,在随后的研究中采用了基于向量空间模型的文本表示方法和基于词频的特征选择方法将文本规范化成我们聚类所需要的数据结构形式。(3)重点概述了近邻传播(AP)算法的基本原理,算法中涉及到的基本概念以及算法运行的过程,讨论研究了算法在运行过程的参数选择对聚类结果和算法效率的影响,简单介绍了k-means算法的流程以及优缺点,对基于词语顺序的聚类算法(后缀树聚类算法)进行了探讨,明确了后缀树算法的步骤以及构建后缀树的过程。其次利用提前分好类别的短消息文本数据集进行了实验仿真,通过聚类评价指标准确率,召回率以及F值来比较三种聚类算法的聚类效果。通过聚类评价指标的比较发现基于AP算法的文本聚类在聚类准确度上比另外两种算法有一定优势,可以应用在接下来的原型系统构建中。(4)设计实现了一个基于近邻传播(AP)算法的短消息文本聚类原型系统,该系统可以根据用户输入的URL进行Web数据信息的获取,并进行短消息文本的聚类为用户及时准确的发现我们所需要的信息提供了较大的便利。