蒙古文网络热点词提取算法研究

来源 :内蒙古大学 | 被引量 : 3次 | 上传用户:mahui0503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络在蒙古地区的迅速普及,互联网已经成为蒙古族人民信息传递的主要媒介。然而,网络信息聚集,导致信息严重过载。因此,如何从成千上万的蒙古文网站中获取有价值的内容,是当代研究的一个重大挑战。在如此环境中,准确提取网络热点词显得尤为重要,成为当今科研的焦点。本文以蒙古文网站中的新闻流为研究对象,自动处理海量新闻报道,对蒙文网络热点词进行提取,本文的主要研究内容有以下几点:(1)分析蒙古文网络新闻的结构特征,在计算词汇权重时,分别统计候选词汇在标题和内容中出现的频率。通过加权算法赋予既出现在标题中又出现在内容中的词汇以更高的权重,实验表明该方法能够提高热点话题的检测能力。(2)分析候选词汇表,新闻内容中包含一些频率很高但与表达意思无关的词语,称之为“异常词”。本文利用词汇的熵与3σ准则相结合的方法来剔除蒙古文新闻文本中的“异常词”。实验结果说明,本方法能够有效的剔除“异常词”。(3)根据热点词的特点,利用词汇权重的方差来表示特定时间内人们对热点词汇关注度的变化。实验表明本方法能够准确提取蒙古文热点词汇。(4)本文利用基于词频和基于TF*PDF的四种热点词提取算法进行蒙古文网络热点词提取,并进行了对比实验,对算法的热点话题覆盖率进行比较。
其他文献
P2P网络完全对等的特性使P2P网络技术得到广泛应用,为用户提供了极大的自由和便利。P2P网络技术有效整合了Internet的潜在资源(包括存储资源、计算资源和内存资源等)。借助其
网格通过组织各种网络空闲资源,为用户提供方便强大的服务接口,以实现计算资源、存储资源、数据资源等的全面共享。已有的计算网格系统都存在中心管理节点,网络通信和管理开销制
随着软件逐渐成为人们日常的一部分,人们对软件的质量和可靠性的要求也越来越高。作为业界保证软件质量的主流技术,软件测试是一个用来检查开发软件的正确性、完整性、安全性
目前突发公共事件及各类自然灾害频繁发生,对突发事件进行分析、预防和应急响应的城市应急联动系统应运而生。然而构建城市应急联动系统所需的数据资源大多处在孤立分散的状
随着计算机网络技术的发展和我国信息化进程的不断推进,计算机网络在人们的日常工作中发挥着越来越重要的作用。目前,大部分的企业或机关单位都组建了内部的局域网,实现了资源共
随着SOA应用的不断深入,大规模服务管理及Web服务自动化处理的重要性不断增加,而当前SOA体系的基础设施已经难以满足这些新的需求,构建新的SOA体系的基础设施已经成为越来越
随着计算机技术的迅速发展,计算机游戏逐渐成为人们最重要的娱乐方式之一和IT行业中最重要的利润增长点。如何在计算机游戏中模拟人类智能,增加游戏的娱乐性和互动性,已经开始受
分类是数据挖掘的一个重要课题。随着数据规模与维数的增加,建立高效的、适用于大型数据集的分类算法已成为数据挖掘的一项挑战性任务。基于显现模式(Emerging Patterns,EP)
在以Gnutella和KaZaA为代表的无结构P2P文件共享系统中,由于文件的流行度呈现不均衡分布,使得现在通常采用的洪泛查询机制的效率较低。已有的针对文件流行度判定机制的研究着重
手语是聋人进行交流的主要方式,是一种通过双手的手形和运动来表达信息的形式化语言。手语识别研究不仅可以增进聋人与健听人之间的无障碍交流,还可以提高计算机对人体语言的理