论文部分内容阅读
文本聚类主要目的是以无监督机器学习方式将文本划分为多个类,每个类包含相似度较高的文本,类与类之间有较低相似度。中文短文本则是随着微博等用户量大、发表量大的社交网络发展而在我国互联网迅速增长的文本类型。对此类文本进行挖掘,可以及时发现网络中的热点话题,发现、预测事件,为企业、政府等机构提供决策支持。但由于中文短文本较短,一般不超过150字,使得传统特征提取方法提取的特征过于稀疏。中文短文本内容形式多种,有大量新词和新语法,如果忽略语义进行聚类效果不佳,而如果使用完整语义分析则容易导致算法效率过低。 针对中文短文本的特点,本文主要对中文短文本特征提取方法、相似度度量方法、增量聚类方法进行研究。 首先,本文通过语义权重模型,在保留语义分析的优点的同时,简化语义分析的算法。由于两个中文短文本中动词和名词大量相似很可能代表着两个短文本表达的意义相似,通过制定不同类型词语相应的权重规则,把句子中名词、动词等重要的词的权重提高,把语气词等非重点词的权重降低,可以有效提高特征提取的准确度。 其次,由于中文短文本中通常重要的名词词长较长,出现次数较多,本文在短文本中引入词长、词出现次数等参数,在语义权重模型的基础上提出一种短文本相似度度量方法。然后结合贝叶斯算法,提出一种基于语义权重和贝叶斯算法的相似度度量方法,可以有效计算文本间、文本与簇、簇与簇之间的相似度。为解决聚类开始时文本较少,样本数量不多产生的问题,文本对算法进行修改,提出一种动态相似度度量方法,可以较好适应聚类期间文本数量变化。 再次,本文在语义权重模型和贝叶斯算法的基础上进行增量聚类的研究,使得模型可以增量增加文本数据。根据文本聚类结果,算法可对相似的类别进行合并,以修正文本提交顺序变化引起的聚类结果变化。 最后,本文用实验对算法进行验证,与基于字符串的层次聚类算法、基于TFIDF的K-Means聚类算法、基于KLD距离的短文本聚类算法进行比较,对实验结果进行讨论,证明算法具有较好的准确率和召回率。