缅文Web文本挖掘技术研究及实现

来源 :华侨大学 | 被引量 : 0次 | 上传用户:zjzzhength
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来缅甸国内计算机和网络的应用越来越普及,国内很多人都使用互联网获取信息。随着缅甸国内互联网的发展,应用缅文的网站也日益增加,网上存在的缅文信息量也不断的膨胀。如何从这些复杂的信息集合里面能够快速、有效的找到所需要的信息是目前缅甸国内正在面临的一个巨大的困难。由于国内经济科学发展较慢,很多技术都还没有达到成熟的阶段,还在发展的过程。国内对数据挖掘这一方面还没有进行过深入的研究,技术方面也还未成熟。所以对缅文文本挖掘方面带来了一种新的挑战。本文对缅文Web文本挖掘方面进行充分的研究。首先简述介绍了Web文本挖掘的研究背景、研究目的、研究意义以及国内外研究现状,分析了缅文语言的一些特征,以及它们对文本挖掘方面带来的一些难题。然后阐述了所提出来的缅文单字分割算法、缅文词干提取算法、缅文停用词、改进的缅文文本聚类算法等。我们分析了这些算法,把它们应用在缅文中,对缅文文本挖掘方面进行充分的研究。本文最后设计并实现了基于以上算法的缅文文献检索系统和缅文文本聚类系统。对缅文Web文本进行Html标签处理、缅文单字分割处理、提取词干、过滤停用词后使用向量空间模型作为文本的表示,使用Okapi相似度评测方法计算缅文文档与查询关键词之间的相关性。经过文献检索实验,测试结果表明所提出来的算法能够快速、有效的挖掘Web上的HTML文档。经过文本聚类的实验,测试结果表明改进后的聚类算法在稳定性、精确性和可靠性方面都有较大的改善和提高。
其他文献
语文课程标准》中指出:“让学生具有独立阅读的能力,注重情感体验,有较丰富的积累,形成良好的语感。”语感是对语言文字的感知体会,语感水平是语文素养之一。在日益频繁的交往中,人
实验教学是工科专业教学的重要组成部分,通过实验有利于提高学生的工作兴趣,提升学生的操作技能,锻炼学生的独立思维和探究能力。合理安排实验可有效发挥实验作用。
在数学领域里,计算是进行一切数学实践活动的重要技能。可有人认为,计算计算,算算而已,只要算对,不必探究;还有人认为,计算靠练,没什么思维含量。之所以出现这些误解的主要原因是对