基于频繁项集的海量文本聚类研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:cheqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本的自动化聚类是文本数据的分类处理和自然语言处理中的一项关键技术,在文本文献的自动分类中也是一项非常重要的应用。近代以来,大量的科技文献的的不断涌现,也导致文本聚类过程中不断的出现新问题。随着科技的快速发展,科技文献的数量已经呈爆炸式的增长,如此大规模的海量文本分类的自动聚类对时间空间方面都对聚类算法和相应的硬件措施提出了极大的挑战。此外,现有聚类问题,类的边界划分和归类的定义十分模糊,并且聚类结果中有极大的不确定性。本文结合关联分析的频繁项集算法、谱聚类算法和分布式计算技术,旨在提高海量文本聚类的效率和准确度,解决海量文本的快速准确聚类问题,进而解决海量科技文献的自动聚类的问题。本文的主要工作如下所示:l、首先对文本聚类的现有成熟算法和关键技术进行了介绍分析。详细阐述了文本数据的分词、频繁项集生成和聚类中文本数据的表示形式等数据预处理技术。然后对传统的文本聚类算法和关联分析算法进行了相应的学习和研究,并研究了在文本聚类过程中关联分析的相应的应用。2、建立起了基于频繁项集的海量文本聚类的系统模型。该模型的建立使用了文本的关联分析处理方法,在关联过程中进行了并行生成频繁项集的算法改进,并使用文本的频繁项集应用到了聚类过程中相似度判定上,提高了聚类结果的准确性。同时,聚类过程中,通过引入最大频繁项集的概念,进行文本数据的匹配,能够快速准确的定位簇类个数及簇类边界。然后针对海量的文本聚类的大数据量特征,设计出了基于MapReduce框架的分布式并行文本聚类的算法,设计了针对该问题的海量文本聚类算法。3、实现过程中,该算法架构在云计算平台Hadoop的环境下,通过集群节点进行并行的文本聚类,成功的应用于某单位的文本聚类项目中,通过对系统的相应压力和性能测试得出,本文提出的聚类算法有着良好的运算结果。
其他文献
旅行商问题(Traveling Salesman Problem,简称TSP问题)是组合数学中一个古老而又困难的问题。动态多目标TSP问题则是近年提出的在TSP问题上发展起来的新问题,它既有动态优化问