基于TWC_CNN的藏文文本分类技术研究

来源 :青海师范大学 | 被引量 : 1次 | 上传用户:ww819994809
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文档按内容自动确定某种类别的技术,是自然语言处理中基础的重要研究内容之一,在信息检索、智能推荐、舆情分析、新闻分类等领域具有广泛的应用价值。随着信息技术的迅速发展和互联网普及与应用,对文本分类技术的要求也越来越高,越来越多的电子文档依靠文本自动分类来处理和管理。由于数据资源匮乏和技术水平欠佳等原因,藏文文本分类的研究还未取得重大突破。现阶段藏文文本分类主要采用以词为基元的传统机器学习方法,该方法既受藏文分词技术的制约,又需要繁杂的人工特征工程。为了解决此方法的缺陷,本文针对藏文文本分类技术从数据集构建、特征基元选择、分类方法等方面研究了藏文文本分类的相关技术。(1)藏文分类文本数据集构建方面针对藏文分类文本数据集稀缺问题,本文结合藏文文本的特征和分类文本数据集的基本要求,提出了藏文分类文本数据集预处理方法,包括音节级藏文分类文本数据集预处理模型、音节校正算法和文本归一化算法TC_CTCN,实验数据表明算法达到了预期效果,并构建了规模为104.8M的藏文分类文本数据集,为藏文文本分类的技术研究奠定了基础。(2)藏文文本分类特征基元选择方面由于受藏文分词技术制约,以词作为藏文文本分类特征基元,分类性能有较大的影响。本文在分析文本分类流程及藏文文本结构的基础上,提出了一种融合词和音节的特征基元选择方法,实验数据表明在目前的技术条件下该方法的文本分类性能最佳。(3)藏文文本分类方法方面在分析藏语自然语言处理技术的基础上,研究了深度学习的藏文文本分类方法,提出了一种基于TWC_CNN藏文文本分类方法。TWC_CNN以融合词和音节的双基元作为特征基元,采用CNN构建分类器,经实验验证其性能优于基线模型,并提到了三个结论:(1)针对藏文文本分类,以融合词和音节的双基元文本分类性能优于词或音节单基元的文本分类性能;(2)在深度学习模型的藏文文本分类方法中,采用CNN模型构建的分类器优于其它模型构建的分类器;(3)基于TWC_CNN的藏文文本分类的精度、召回率、F1值都有了较大的提高,文本分类性能优于其它基线模型。
其他文献
拉姆齐理论是组合数学的一个重要组成部分,它在理论计算机科学、信息论、决策学以及金融经济学等一些领域应用较为广泛.拉姆齐数是将拉姆齐理论的存在性定理进行了量化,求解图的拉姆齐数的精确值以及改进它的近似界是研究拉姆齐理论中较为活跃的分支.同时图的拉姆齐数研究在计算几何、逻辑分析、并行计算、复杂结构以及解决其他NP困难问题上也扮演着重要角色.解决拉姆齐数问题的关键是通过寻找有效的研究工具计算出精确值.C
学位
中药资源作为国家战略性资源,关乎我国中药产业和中医药事业的发展,而民族医药资源是中药资源的重要组成部分。部分中药资源的根、花、茎、果等部位通常含有相同种类的化学成分和药效,由于缺乏科学的认识,常弃掉其非传统药用部位;此外,对合理利用开发药用植物资源的认识不足,加之利益驱使过度采挖、拓荒和放牧等因素,造成药用植物资源严重浪费。秦艽Gentianae Macrophyllae Radix作为“十八青药
学位
三江源作为中国最大的自然保护区,其丰富的生态资源琳琅满目,又被誉为中华水塔,对中国的生态状况及国民经济发展起着重要作用,在西部大开发生态环境的治理保护担负着重要的责任。本文将针对三江源生态保护区特有的动植物图片进行图像识别与分类,设计一种基于残差学习网络的方法对图像进行识别,通过迁移学习,在预训练模型的基础上进行训练,从而得到最终模型。本文将从数据的采集工作即数据集的建立开始,到图像识别分类的一般
学位
语言与文字是最善于发掘人类智慧的知识,是古老文明的典藏,也是当今自然语言处理和知识图谱的核心资源,而自然语言处理和知识图谱是人工智能得以实现的关键,是人工智能皇冠上的明珠。突破自然语言处理和知识图谱,会大幅推动人工智能在学术界和工业界等很多领域的广泛关注与应用。近年来,在大数据和深度学习的支撑下,自然语言处理和知识图谱技术迅猛发展,而人类迫切需要从这些浩如烟海的数据中快速准确地获取自己想要的信息或
学位
光催化技术被认为是一种能够解决环境污染和能源短缺问题的理想技术。Bi2O3作为一种半导体光催化剂,由于其具有合适的能带结构和优异的化学稳定性,成为目前被广泛研究的可见光光催化剂。然而,Bi2O3光催化剂中较高的光生电荷复合和有限的光吸收范围严重影响着其在光催化领域的应用。因此,本论文以Bi2O3为研究对象,通过不同的策略对其进行改性研究,旨在提高其光催化降解和还原效率。本研究不仅为Bi2O3满足不
学位
情感是计算机所不具备的一种主观意识,是自然语言处理研究领域中重要的一步。文本情感分析(Text Sentiment analysis)是对带有情感色彩的评论性文本进行情感倾向判断,需要考虑情绪感受而不是简单的逻辑计算。对自然语言处理领域而言,具有情感分析能力是质的飞跃。随着互联网的发展,在线语料的潜在价值得到各界科研人员的广泛关注,推动了评论性文本情感分析研究领域的发展。目前文本情感分析方法仍存在
学位
语音识别技术是以语音为研究对象,通过语音信号处理和模式识别技术让计算机自动识别和理解人类的语音,并将语音转换为相应文本序列的技术,在语音输入、语音助手、智能家居、无人驾驶、机器人语音指令交互等工程中具有重要应用价值。随着深度学习技术的发展,基于神经网络的语音识别技术逐渐成为国内外研究热点。藏语语音识别技术由于受语料库、自然语言处理技术以及多方言等限制,发展比较缓慢,但其需求非常迫切。为了促进藏语语
学位
句法分析是自然语言处理的一个重要研究任务,其目标是分析自然语言的语法,以便计算机更好的理解自然语言语义。随着构建大规模的数据,迅速发展了深度学习等技术,英汉文等句法分析取得了惊人的成果,并在机器翻译、知识库构建、信息抽取和信息检索等自然语言处理中取得了广泛的应用。藏文句法分析处于起步阶段,缺乏必要的大规模标注数据,无法使用监督学习的方法进行研究,该文使用无监督学习的方法对藏文句法分析进行了初步的研
学位
信息技术的高速发展使电子文本海量增加,传统的人工校对方法已不能满足实际需求。计算机自动拼写检查(简称拼写检查)用计算机代替人工对文本进行自动校对,可以将用户从繁重的校对工作中解脱出来,提高文本校对的效率。拼写检查是自然语言处理领域的基础性工作,在出版行业、语料库建设、搜索引擎、问答系统、语音识别等领域具有重要的应用价值。从文本组成粒度的不同,藏文拼写检查包括音节级、词级、语法级和语义级拼写检查。随
学位
上世纪七十年代,罗吉·福勒和其他学者提出了“批判语言学”的概念。在此基础上,以诺曼·费尔克劳为首的学者建立了“批判话语分析”研究方法。此前的研究表明,批判话语分析能够揭示话语、权力和意识形态之间的关系,尤其是话语中包含的不平等的权力关系。作为一个跨学科领域,批判话语分析通过研究权力如何影响人们的意识形态,提出解决方法,改变或制止不平等的社会或政治现象。在日常生活中,我们经常会阅读到失实报道。在这种
学位