基于向量空间的文本聚类方法与实现

被引量 : 42次 | 上传用户:woshi52031
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是数据挖掘领域中的一个十分重要的分支。文本聚类技术能够有效的将网页上的文本信息进行归类,方便人们在海量的网络信息中查找有用的信息,提高网络的服务质量。本文的研究内容是基于网页中的中文文本的聚类,通过聚类将网页上的文本具有一定相似度的文本归为一类。由于汉语文本通常是由汉语单字或者单词作为单位所组成的连续语句,它不像英文文本以空格作为分界标志,因此在对中文文本聚类之前,需要将整句话切割成为小的词汇单元。另外,还需要将文本中不是关键的词语进行去除,保留能够代表该文本内容的重要词语。然而文本聚类算法不能够直接在原始中文文本的形式上进行处理,因为这些文本内容是人类所使用的自然语言,属于非结构化文本,计算机很难对其语义进行处理。文本结构化处理就是将非结构化文本转化为计算机能够处理的结构化文本表示模式,根据文本的特点和文本处理的要求来选择合适的文本表示模型,而在本文中将选用向量空间模型(VSM),因为向量空间模型是将上下文表示为特征项和权值集合的向量,从而将聚类操作变换为向量空间中的向量运算。目前有很多种方法将文本信息转化为向量,在这里将选取经典的基于向量空间的特征权重计算方法词频-逆向文档频率算法(TF-IDF)对中文文本进行结构化处理,因为TF-IDF刻画了特征项在整个文本集的分布重要程度。虽然通过向量转换的文本能够被计算机处理,但是由于文本集合中的每个文本都是由大量的特征组成,它们的维数往往很高,这将会影响到文本聚类的效果。并且各自的文本向量可能存在于不同的向量空间,给计算相似度带来困难。所以在文本聚类中需要建立从原始特征空间到另一维数较低的特征空间的映射。这时就要对特征进行优化。而潜在语义分析(LSA)中的奇异值分解(SVD)不但能够将向量空间模型中的非正交的多维特征映射到维数较少的一个潜在语义空间中,而且能基本保持原空间的语义特性,从而实现对特征空间的降维和降噪处理。文本经过降维处理后就可以通过聚类算法进行聚类。目前聚类算法中基本分为基于划分方法、基于层次方法、基于密度方法和基于网格方法的聚类。在这些聚类方法中,本文选用了基于密度方法的聚类算法OPTICS (Ordering Points To Identify the Clustering Structure),因为该方法比起其它聚类方法,它可以发现不同形状的文本簇,并且还能过滤离群点,对网页文本的聚类效果更好。在聚类最后还通过单参数指数平滑方法对聚类结果进行处理,使得聚类结果更加准确。通过实验验证,该方法适用于对网页文本的聚类分析。
其他文献
使用符号是传播现象最基本的特征之一,对传播符号的研究也是我们理解人类传播现象的最重要的基础之一。作者以传播学家在传播符号研究方面所得到的一系列成果为基础,对传播符
目的 探讨案例教学法对提高社区护士糖尿病运动管理的影响。方法 选取2017年11月-2018年1月上海市各家社区卫生中心筛选出参加培养实践的80名社区护士,运用案例教学法对其进
理论界尚乏从制度环境与制度变迁的关系角度对新加坡中央公积金制度(CPF)的研究。本文在剖析CPF变迁的四维环境即人口、政治、社会和经济环境的基础上,以制度供款率、参保者
加强和改进高校思想政治教育工作机制,是促进大学生全面健康发展及构建和谐社会的必然要求。"中国梦"的提出为高校思想政治教育工作带来新的机遇和新的挑战。高校可通过大学
本文用高效液相色谱法测定金银花中保卫田残留量,使用ODS柱,流动相2%NH_4Ac-甲醇(6:4),流速1mL/min,柱温30℃,紫外检测器检测波长285nm。方法加标回收率80.3%~89.4%,方法最低检出浓度0.02μg/g。
<正> 在晚唐的诗坛上,杜牧的诗放射出奇光异彩。他的五古,师法杜甫,多写重大的社会政治题材,骨气遒劲,豪健挺拔;而他的近体律绝,则言情写景,别有风味。如果说杜牧的古体诗尚
根据高压电力电缆应具备低烟、无卤、阻燃、耐火等性能要求,介绍了低烟无卤阻燃耐火高压电力电缆的结构设计、材料选择及关键生产工艺控制等主要内容。
我国法律对于遗失物拾得制度的规定,还是比较全面的。但是,过多地强调了遗失物拾得人的义务,而忽视了其该享有的权利,表现出有失公平的现象。法律规定应当在遗失物权利人和拾
借鉴国际经验,构建我国一般反避税法规的路径是成文法和判例法的发展相结合,建立框架性(或原则性)法规和实施细则(或解释性备忘录)相结合的法律体系。《特别纳税调整》中一般
导致奶牛不孕的因素很多,主要是饲养管理不当、营养不良、环境因素、疾病因素。笔者通过近100例病畜的综合治疗经验,就奶牛的繁殖障碍及防治措施谈一些看法。