论文部分内容阅读
近年来缅甸国内计算机和网络的应用越来越普及,国内很多人都使用互联网获取信息。随着缅甸国内互联网的发展,应用缅文的网站也日益增加,网上存在的缅文信息量也不断的膨胀。如何从这些复杂的信息集合里面能够快速、有效的找到所需要的信息是目前缅甸国内正在面临的一个巨大的困难。由于国内经济科学发展较慢,很多技术都还没有达到成熟的阶段,还在发展的过程。国内对数据挖掘这一方面还没有进行过深入的研究,技术方面也还未成熟。所以对缅文文本挖掘方面带来了一种新的挑战。本文对缅文Web文本挖掘方面进行充分的研究。首先简述介绍了Web文本挖掘的研究背景、研究目的、研究意义以及国内外研究现状,分析了缅文语言的一些特征,以及它们对文本挖掘方面带来的一些难题。然后阐述了所提出来的缅文单字分割算法、缅文词干提取算法、缅文停用词、改进的缅文文本聚类算法等。我们分析了这些算法,把它们应用在缅文中,对缅文文本挖掘方面进行充分的研究。本文最后设计并实现了基于以上算法的缅文文献检索系统和缅文文本聚类系统。对缅文Web文本进行Html标签处理、缅文单字分割处理、提取词干、过滤停用词后使用向量空间模型作为文本的表示,使用Okapi相似度评测方法计算缅文文档与查询关键词之间的相关性。经过文献检索实验,测试结果表明所提出来的算法能够快速、有效的挖掘Web上的HTML文档。经过文本聚类的实验,测试结果表明改进后的聚类算法在稳定性、精确性和可靠性方面都有较大的改善和提高。