基于相似度的文本聚类算法研究及应用

被引量 : 16次 | 上传用户:youqianlowa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是文本挖掘的一项重要技术,可广泛应用于文本挖掘与信息检索等方面,在大规模文本集的组织与浏览、文本集层次归类的自动生成等方面都具有重要的应用价值。但是,传统的文本聚类算法忽略了文本中单词之间的语义相关性,存在聚类结果不稳定等问题。论文主要钳对以上问题对文本聚类进行研究。论文先论述了文本挖掘的相关知识,分析了文本聚类的必要性及国内外研究现状,并介绍了传统的文本聚类算法,并对其进行比较和分析。重点对文本表示方法及DBSCAN算法做了深入研究,对相关算法进行改进,并在此基础上设计一个文本聚类系统。本文主要工作如下:(1)介绍常用文本聚类算法,并从伸缩性、多维性、处理高维数据的能力等方面对常用文本聚类算法进行分析和比较。(2)提出一种基于语义列表的文本聚类算法,该算法利用语义相似度计算文本的相似度,获得文本的语义相关性,采用语义列表中的同义词近义词指针降低单词的冗余度,降低了文本数据的维度,最后采用基于划分聚类算法对文本聚类。实验表明此算法提高了聚类结果的正确性。(3)对聚类算法DBSCAN进行改进,提出一种阈值优化的文本密度聚类算法。该算法首先使用k近邻距离对对象进行排序,并通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化阈值使用密度聚类方法对对象进行聚类。改进后的聚类算法克服了阈值选取对聚类结果的影响,提高了聚类精确度和时间效率。文章采用树形结构存储聚簇,增加了聚簇的可读性。实验结果证明了该算法的有效性。(4)在理论研究的基础上,将本文提出的文本聚类算法应用于文本数据集中,设计一种文本聚类系统,该系统提供了预处理模块、语义列表模块、聚类算法模块、结果评估模块,分析系统各个模块的主要功能及其应用,结果表明该系统具有良好的可扩展性、灵活性。
其他文献
宗教多元化是美国宗教的一个显著特征,它在美国社会历史发展中经历了如下过程:新教主导的多元化,犹太—基督教传统主导的多元化,非犹太—基督教传统宗教增长的"新"宗教多元化
针对高分辨率光学遥感影像,利用航标间具有很强相似性的特点,提出了航标相似性编组的自动提取算法。首先采用单类支持向量机对遥感影像进行水陆分割,确定出水陆的边界线,再对水域
根据工程实例,介绍了采用6000 kN·m高能级强夯置换处理新近回填大厚度软土地基的施工工艺,置换深度达到了10m,处理效果显著,可为同类型的地基处理提供参考。
目的:研究萘丁美酮干混悬剂在健康人体内的药动学及其生物等效性。方法:18例健康受试者单剂量交叉口服1000mg萘丁美酮供试制剂或参比制剂后,采用高效液相色谱-紫外检测法测定
石鼓文为春秋战国时期秦国刻石,因十首诗歌刻于十面形似馒头的石鼓上而得名.石鼓文应产生在《诗经》三百余首诗歌出现以后.十首石鼓文诗歌,叙述了秦君出猎的全过程,是一次大型
改革开放以来,特别是进入新世纪以来,我国中小企业不断发展壮大,已成为我国国民经济和社会发展的重要力量,在繁荣经济、增加就业、推动创新、改善民生等方面,发挥着越来越重
声波是目前唯一能进行水下远程探测、通讯的信息载体,因而水声技术在人类探索海洋、开发利用海洋、海洋军事防卫等方面扮演着举足轻重的角色。水声信号常常伴随有非线性和非
小说《阿姆斯特丹》对人物及其行为的鞭苔到达极致。本文作者在该小说文本中识别出梅尼普讽刺的特征,即结构手段和讽刺人物的塑造,并且察觉到小说作者麦克尤恩对人文主义话题
一个国家汽车产业在支撑各国国民经济的发展中扮演着非常重要的角色,它的发展也将关系到全球化背景下各国经济未来的整体发展。因此,如何加快汽车产业的发展速度以及如何提高
【正】 原先我嗜茶。我那个特大号的茶缸里,永远泡着半缸绿莹莹的茶叶。深夜,我从一叠叠厚厚的预审案卷中抬起头,将一杯香冽的热茶咽下肚,顿觉神清气爽,口舌留香,疲惫和困乏
期刊