基于相似度的文本聚类算法研究及应用

被引量 : 19次 | 上传用户:bibby_514
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是文本挖掘的一个重要分支,因其独特的知识发现功能而得到较为深入的研究。文本聚类算法已经在文档自动整理、检索结果的组织和数字图书馆服务等方面得到了广泛的应用。但是在应用中随着文本集的不断扩大,传统的文本聚类算法遇到了一些难以克服的困难,算法忽略了文本中单词之间的语义相关性,算法聚类结果不稳定等。论文主要针对以上问题对文本聚类进行研究。论文首先详细介绍了传统的文本聚类算法,并对其进行比较和分析。其次,为了解决向量空间模型忽略单词之间的语义相关性的问题,提出了一种基于单词相似度的文本聚类算法(TCWS);针对传统K-Means算法聚类结果不稳定的缺点,提出了一种基于文本平均相似度的K-Means算法(KAAST)。最后,将研究成果应用到公安情报系统中。本文的主要研究内容概括如下:(1)介绍了常用文本聚类算法,并从伸缩性、多维性、处理高维数据的能力等方面对常用文本聚类算法进行分析和比较。(2)提出一种基于单词相似度的文本聚类算法(TCWS)。该算法首先利用单词相似度对单词进行聚类获得单词之间的语义相关性,然后利用产生的单词类作为向量空间模型的项表示文本,降低了向量空间的维度,最后采用基于划分聚类算法对文本聚类。实验表明TCWS算法提高了聚类结果的正确性。(3)提出一种基于文本平均相似度的K-Means算法(KAAST)。该算法首先构造文本平均相似度集合,其次从集合中选取当前平均相似度最大的文本作为初始聚类中心,同时删除集合中与其簇相关的文本,这样选取出的中心点不但具有代表性且分散,最后利用选取的中心作为K-Means算法的初始聚类中心对文本聚类。实验表明KAAST算法的稳定性有较大的提高。(4)在理论研究的基础上,将本文提出的算法应用到公安情报系统中,并设计和实现了文本聚类子系统,提高了情报处理的效率和正确性。
其他文献
目的:研究Wy10快速牙齿美白术对各类着色牙的疗效及敏感度的影响。方法:将门诊中要求牙齿美白的20例患者的着色牙,按病因分为増龄性黄牙180颗,外源性染色牙120颗,轻、中度四
社会责任已成为当今企业可持续发展的主题,企业社会责任正以前所未有的速度在我国快述发展。自1999年第一份企业社会责任报告在中国发布以来,国企、外资、民营企业纷纷意识到
新时期中国大陆的魏晋游仙诗研究成就斐然,学者们能更新观念,转换视角,采用新的方法,将宏观的整体研究与微观的个案研究相结合,探讨了游仙诗的发展、渊源、流变等问题,尤其在
目的:探讨脑结构非对称性与精神分裂症遗传易感性之间的关系。方法:对符合美国精神障碍诊断和统计手册第四版(Diagnostic and Statistical Manual of Mental Disorders,Fourt
随着我国旅游业的不断发展,旅游资料更多的需要被翻译成英文给外国游客使用。大部分的旅游翻译作品都是非常成功的,但其中也存在很多问题。这些问题多是由于忽视了中英文化差
汽车产业作为国家产业的支柱产业,对社会经济建设和科学技术发展有重要的推动作用。随着全球经济一体化日趋明显,市场竞争日益激烈,面对国外汽车巨头的进入,我国的汽车产业仍
<正>代谢综合征包括腹型肥胖、高脂血症及高密度脂蛋白胆固醇(HDL-L)低下、胰岛素抵抗和(或)葡萄糖耐量异常等。随着研究的深入,代谢综合征研究的内容愈来愈丰富,如脂肪肝、
学校负债应该考虑的首要问题是最大限度地避免可能发生的财务风险。有关方面应加强对教育财务风险的管理与控制,构建包括自有资金动用程度、其他资金占有程度、学校资产负债
调查结果显示:在对新课程与教材的适应、教学观念与教学行为、教学评价、学生学习方式等方面,新课程改革实验都取得了显著的成效,但也存在着城乡实验效果差异显著、小学与初
航运业是传统的高风险行业,对于航运企业来说,面临着内外两方面的风险。对企业实施风险管理,尤其是全面风险管理,已经成为很多管理者面临的首要问题。针对我国风险管理方法的