基于LDA的西里尔蒙古文主题模型研究

来源 :内蒙古大学 | 被引量 : 1次 | 上传用户:gaolch002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型(Topic Model),顾名思义就是对文字中隐含主题的一种建模方法。主题模型在机器学习和自然语言处理领域中有广泛应用。通常被用来在-系列文档中去发现与本文档语义相近的主题。本文是针对西里尔蒙古文的主题建模。通过分析西里尔蒙古文的特点,进行文档预处理。主要进行了词缀切分,命名实体识别和去除停用词。选取基本词结合命名实体作为特征单元作为进行向量化构建。通过比对LSA,PLSA[3]和LDA相关主题模型的性能。分析不同的模型在西里尔蒙古文语料下的建模性能。最终选择LDA作为西里尔蒙古文的主题建模模型。模型训练对比了EM算法和Gibbs采样算法。分析算法的不同性能,并针对西里尔蒙古文的主题建模提出了一种改进的Gibbs采样算法。在改进的Gibbs采样算法上训练LDA主题模型,优化了LDA主题模型在西里尔蒙古文上的建模性能。西里尔蒙古文的主题构建可以帮助我们快速处理海量的信息。同时文档通过主题进行表达,降低了传统的基于词表达的空间维度。大大提升了我们利用蒙古文进行机器学习和自然语言处理的能力。
其他文献
当前在消化道的体内极端环境中,医患双方都迫切需要提供可操控的医疗检测用可吞服式微型诊查工具。本课题主要研究医用胶囊内窥镜在人体内的无线定位,并给出了定位系统硬件电
随着Internet的发展和网上信息的愈加丰富,人们越来越依赖于网络获取需要的大量信息,搜索引擎正是在这样的背景下应运而生。然而,作为通用的信息提供工具,面对海量的互联网信
蒙古文命名实体识别是蒙古文自然语言处理的基础课题,被广泛地应用于蒙古文信息抽取、机器翻译、文本聚类、信息检索等领域。而在蒙古文命名实体识别中人名所占的比例最大,其
RSS也叫聚合RSS,是在线共享内容的一种简易方式。传统的网络爬虫对实时性要求不是很高,但是RSS的特点是时效性强,为了向用户提供高时效性的个性化服务,服务器需要以最短的延
话题模型(Topic model)是目前流行的一种图模型(Graph model)的.其严格遵守贝叶斯概率框架,是一种完全的贝叶斯模型。话题模型作为一种产生式模型,具有非监督学习,能够利用大
2008年8月,IETF NetLMM标准化了一种基于网络的移动性管理协议,称之为代理移动IPv6(PMIPv6)。PMIPv6是基于网络的移动性管理协议,MN不需要参与任何的移动性信令管理,网络中的
遗传算法发展到现在,仍然是演化计算领域研究的热点,对旅行商问题的求解是其应用之一。传统的遗传算法对于大规模的旅行商问题不再适用,必须开发新的算法,或对现有的相对来说
随着信息技术和互联网的飞速发展,在这个信息知识大爆炸的时代里,人们正面临着信息的飞速激涨,所以迫切需要可以很好的协助人们从这海量的信息文本中快速而准确的找到真正所
随着信息技术的飞速发展,互联网已经在全球范围内得以迅速普及,已经成为了人们工作、生活不可或缺的信息承载工具。而伴随网络技术的发展,网络规模的迅速扩大,网络服务的种类
隧道工程是交通基础设施建设的控制性工程,从设计、施工到运营维护,地质结构对于隧道全寿命周期的安全性具有关键性作用。特别是在隧道工程施工阶段,为了确保施工的合理以及