基于耦合关联分析的文档聚类

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:tuniao1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,数据呈现爆炸式的增长,大量的文档不断涌现,而聚类分析可以从这些文档中获取大量的有用信息。因此如何高效地对文档进行聚类并应用于文本挖掘和信息检索的不同方面,成为当前急需解决的问题。文档聚类是通过相应的文档聚类算法将文档集合以簇的形式表示,使得相似性大的文档在一个簇中,相似性小的在不同簇中。文档聚类是数据挖掘以及自然语言处理领域的重要课题。在大多数文档聚类方法中,频繁被使用的是基于词包模型的文档表示技术,但是使用词包模型表示文档并没有考虑词项间潜在的关联,因此这些方法在聚类效果上并不令人满意。同时,一些文档聚类方法尽管考虑了词项间的耦合关联,但是涉及的关联并不全面。本文正是针对这些重要的耦合关联来展开更为全面的相关研究。本文以词项间的耦合关联为研究目标,主要提出了如下三种有效的聚类分析方法:(1)本文提出了一种基于WordNet和耦合关联分析的文档聚类,依据WordNet词典计算简单文档相似度,进行语义耦合,并将词项间同时出现的频率信息进行显示耦合和隐式耦合。把这三种关联耦合量化,进行聚类分析。(2)本文在原先CRM(Coupled term-term Relation Model)方法下,针对计算显示耦合并不直接的问题,提出了一种基于JS(Jensen-Shannon)散度的耦合关联文档聚类方法。该方法利用JS散度直接计算词项间的显示耦合,辅以隐式耦合来进行文档聚类。(3)本文针对前两种聚类方法中存在的以复杂计算提高聚类效果以及权重准确度不高的问题,提出一种基于自信息和位置词频的简化耦合关联文档聚类算法。该方法改变原先TF-IDF权重计算的方式,利用自信息以及位置耦合进行权重的计算,简化隐式耦合的复杂计算,提高了文档的聚类效率。本文对提出的三种方法都进行了实验验证。本文的三种方法都分别结合了K-means和DBSCAN两种聚类方法,并且使用两种数据集,表明这三种方法具有通用性。使用了WordNet、JS散度、自信息和位置,使得进行聚类前,文档处理和计算较为充分准确。本文提出的三种方法都与已有的耦合关联方法进行了对比,使用了Purity、RI、F1和NMI四种聚类评估指标。实验结果证明了本文提出的方法可以取得更好的聚类效果。
其他文献
随着信息技术的不断发展,软件复用和软件构件化越来越受到业界的广泛关注。当前的构件技术还是存在许多需要进一步改善的地方,譬如传统的构件描述与检索方式,由于缺乏丰富的构件
支持向量机(Support Vector Machine, SVM)作为近年来发展迅速的一种新型的、基于机器学习的一种模式识别算法,具有很好的推广能力,使其应用于多个不同的领域中。目前,SVM分
随着搜索引擎、社交网络以及聊天机器人等应用场景的发展和普及,短文本相似度计算在信息检索、文本分类、智能问答和机器翻译等研究和应用中发挥着重要的作用。传统的文本向
随着Semantic Web研究和Web2.0应用的发展,RDF数据被大量地发布。W3C发布的SPARQL查询语言和数据访问协议,担负着统一RDF查询和数据访问标准的重任。 课题旨在设计实现一个
采用转炉的方式是现在主流的炼钢手段,在转炉炼钢过程中,化渣是其中的一个关键过程。自动炼钢要求利用计算机技术对化渣状态准确、及时判定,作为控制系统实时调控的依据,使得炼钢
自九十年代产生以来,数据挖掘技术的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。在常见的非结构化数据如文本、图像、视频中,文本数据
随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此。为了能在海量纷杂的文本信息中及时准确地获得
从大型数据集中发现有趣的,有用的且预先未知的知识的过程被称为数据挖掘。数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从大型数据集中提
本论文所讨论的数据清洗是通过对数据库海量数据冗余信息的匹配、探测并去除错误数据和矛盾数据、提高数据质量的过程。数据质量问题出现在多个数据集合之间。由于出现数据输
Web服务是一种崭新的Web应用,是SOA(Service-Oriented Architecture)的核心。在Web服务以及SOA中,存在三个不同的角色(服务提供商、服务代理商和服务请求者),三种基本操作(服务