基于深度神经网络的藏文分词算法研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:uspjxt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文分词是藏文自然语言处理的基础。在藏文自然语言处理中,主流的分词模型聚焦于深度神经网络。据此,本学位论文研究基于深度神经网络的藏文分词算法,设计并实现藏文分词系统。主要工作总结如下:(1)构建藏文数据集采集藏文语料,对藏文语料进行处理,如去除标签等。使用西藏大学提供的Tibetan数据集构建藏文分词模型,利用分词模型对语料进行预分词。通过校验,得到用于藏文分词任务的数据集。利用simhash对藏文数据集去重,最终得到包含74384条藏文语句的数据集。(2)改进基于长短时记忆(LSTM)网络和条件随机场(CRF)的藏文分词方法提出LSTM和CRF的藏文分词改进模型,应用软注意力机制(Soft Attention)以提升藏文文本序列上下文信息的提取能力,并应用音节扩展方法解决输入语料特征信息弱的问题。实验结果表明,与LSTM和CRF的藏文分词模型相比,基于Soft Attention的LSTM和CRF的藏文分词模型在Tibetan-News数据集上的精确率(Precision)、召回率(Recall)和F1分别提升2.9%、3.5%和3.2%。(3)改进基于Transformer和CRF的藏文分词算法提出基于Transformer的藏文分词模型,并且为了解决对于长序列输入模型训练时间较长的问题,使用核函数改进自注意力机制以降低模型的时间复杂度。实验结果表明,与基于LSTM和CRF的藏文分词模型相比,基于Transformer的藏文分词模型的精确率(Precision)、召回率(Recall)和F1指标在Tibetan-News数据集上分别提升3.4%、3.4%和3.5%。(4)设计实现藏文分词系统基于上述模型,应用软件工程理论设计实现藏文分词系统。主要包括注册、登录、用户信息管理、藏文分词、文件管理等子功能,实现用户输入藏文文本即可得到分词结果的功能。
其他文献
激光诱导击穿光谱(Laser-induced breakdown spectroscopy,LIBS)是一种重要的原子发射光谱技术,具有检测速度快、样品前处理简单、多元素同时分析等优点,可用于各种基质,包括固体、液体、气体和气溶胶,在微量元素检测方面也具有重要的研究意义和应用价值。其中,液体中痕量元素的分析在食物卫生、环境安全、工业和军事领域具有重要的价值。但由于存在等离子体淬灭、激光照射下液体表
学位
随着计算机视觉技术不断被应用在各种实际场景中,对技术的需求也呈现出多样化。在本文所研究的驾校场景中,就有着目标距离信息以及目标检测的实时性需求。本文中目标距离信息由测距算法通过目标检测算法提供的检测框获取,根据距离信息选择出近距离目标并对其启用快速的跟踪算法,同时让检测精度较高的目标检测算法提升跟踪检测效果。设计的整体算法最终提升了驾校场景下目标检测和目标距离检测的精度和速度,基本实现智慧驾校辅助
学位
二维窄带隙半导体材料具有丰富的边缘活性位点和较宽的光谱吸收范围(覆盖紫外-近红外光波段)以及高的载流子迁移率。在作为新一代光电功能材料在光电器件方面有着很大的应用前景,如光电探测器、太阳能电池和光电催化电极等。Bi2Se3和Bi2Te3作为典型的窄带隙(0.3-1.0 eV)半导体,具有强的光与物质相互作用、较高的导电性和较大的比表面积。此外,Bi2Se3和Bi2Te3还是典型的拓扑绝缘体,表面为
学位
个性化推荐技术近些年得到了飞速发展,其在新闻推荐领域得以广泛应用的同时也取得了很好的效果。个性化新闻推荐技术针对用户偏好进行定制化的新闻推荐,它通过对用户一系列行为历史,属性的分析,计算出基于用户偏好的新闻TOP-K排序,为用户推荐出可能感兴趣的新闻。在个性化新闻推荐中,用户与新闻的特征的表达是关键。然而,用户兴趣偏好面临难以准确量化计算的问题。为此,本文开展针对用户兴趣建模的研究,提出了基于用户
学位
人工智能领域是当下飞速发展以及热度相当高的一个技术领域。在人工智能领域中无人汽车、机器人、无人机一直是人们所追求的重要方向。为了实现让机器人自主运动的目的有一个不可或缺的关键算法——同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)。为了进一步提升SLAM算法的轨迹精度,本文在ORB-SLAM2中添加了深度噪声模型进行优化,并引入了基于法向量
学位
波长在555nm-561nm的低噪声全固态黄绿激光在大气遥感、通信、信息存储、食品和药品检测等领域具有广泛的应用,成为国内外激光器领域的研究热点之一。噪声是衡量激光器输出稳定性的重要参考指标之一。因此,本文将获得低噪声黄绿激光作为研究重点。为了更好地实现全固态黄绿光激光器的热管理,本文基于有限元分析方法对808nm LD泵浦模块以及紫铜热沉底板、Nd:YAG晶体、非线性倍频晶体以及承载的铝制热沉底
学位
近年来基于图神经网络地推荐系统展现出优秀的性能与前景,出现了许多出色的成果模型,但其中仍然有很多问题亟待解决:1.通常情况下一个用户为物品项评分的标准是类似的,因此获得相同评分的物品项具有类似的性质,但大多数模型采样方法忽略了这种潜在关系。2.节点信息的聚合过分关注临近的邻居节点,没有注意到远距离节点的结构信息。3.在节点聚合过程中将用户节点与物品节点视为同一类节点,影响了图神经网络的性能表现。4
学位
拉曼光谱具有抗干扰能力强、制样简单、可测光谱范围宽、不受溶剂水的影响等优势,成为鉴定物质分子结构的有力工具。普通拉曼散射光谱信号非常弱,在应用方面受到较大限制。表面增强拉曼光谱技术的发展克服了这个缺陷,使得拉曼光谱技术在应用中重回生机。目前,表面增强拉曼散射(Surface-enhanced Raman spectroscopy,SERS)的研究热点主要集中在稳定、高效、经济、可重复的SERS基底
学位
我国的淡水资源匮乏,且伴随着工业不断发展,处置不当的重金属废液对水资源和土地资源等构成严重威胁,直接对生态系统和人类健康造成不可逆转的损害,因此如何处理重金属污染水成为当务之急。吸附法凭借操作简单、无污染的优点成为处理污水的重要方法之一,其中,碳材料因原材料来源广泛成为首选吸附材料之一,同时研究发现太阳能驱动的界面水蒸发系统在重金属离子回收有广泛的应用前景。基于以上背景,本论文主要以废弃的核桃壳材
学位
随着互联网技术和信息科技的飞速发展,越来越多的学生采取线上学习的方式来获取知识和巩固学习。学生做题是检验和提升学生学习成果的有效手段,在学生做题时给予一定程度的做题奖励能够激励学生做题的积极性。本文将学生做题并得分的过程看作一个马尔科夫决策过程,通过研究奖励函数的设置来设计学生做题过程中的得分奖励。本文所做工作主要有以下三个方面:(1)分析了在学生做题过程中,影响其得分的两个客观因素:试题难度和做
学位