基于数据增强的藏文改写检测研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:fencer_20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文针对藏文语料稀缺的问题,在藏汉双语、藏文单语文本改写检测任务中使用数据增强的方法,在一定程度上解决了低资源语言训练语料规模小的问题。在藏汉跨语言文本改写检测任务中,该文使用数据增强方法,有效利用目前公开的藏汉平行语料,扩充藏汉跨语言文本改写检测训练语料,当扩充至20万句对时,藏汉改写检测模型的皮尔森系数(pearson correlation)达到0.5476,比基线系统的皮尔森系数提升了0.3971,表明藏汉改写检测模型检测出的句对相似度值与人工标注的相似度值已达到中等程度相关。在藏文单语言任务中,
其他文献
针对低信噪比环境下卷积码识别研究存在的不足,提出一种基于分段抽取软判决加权Walsh Hadamard变换(WHT)的卷积码识别算法。该算法利用接收比特的解调软判决信息求取软判决频次
大棚葡萄"小龙干"栽培,投入少,用工少,结果快,产量高.实践证明,"小龙干"栽培投入的肥、水、药只有菜棚的1/5.栽后盛产期12~15个月,亩产量3000~5000公斤.1栽植管理1.1栽植时间.
随着笔记本、平板电脑、智能手机等移动终端设备的不断普及,很多学校开始提倡学生自带设备(BYOD)开展学习活动。文章通过分析混合式教学、学生自带设备两种情形,引入新的BYOD
一项政策由多个组织共同执行时,组织间协调的精细化程度成为影响政策执行绩效的关键变量。从实质性协调和程序性协调这两个维度描述了“骨干计划”执行组织间协调精细化存在
<正>化腐朽为神奇,化城市顽疾为城市新动力北京传统区域的特色不仅仅来自于他们的物质形式,而且在相当大的程度上来自于当地居民的精神生活
【正】玉米是世界上最重要的作物之一,也已经成为我国第2大粮食作物,在保障我国粮食安全中处于举足轻重的地位。国内外研究表明,与粒重相比,玉米穗粒数是一项易变的因素,对产
互联网给人们日常生活带来了巨大变化的同时,也冲击了高校传统的教学管理方式,互联网思维下的教学管理改革是必需的。本文通过分析互联网思维的特征,利用互联网思维,对高校教
目的探讨铁皮石斛对大鼠血液生化指标的影响。方法采用拌饲法连续喂养大鼠90 d后,观察试验动物一般生长情况,测试谷草转氨酶、谷丙转氨酶、胆固醇、甘油三酯等血生化指标。结
大学教师发展在国外已经是一个较为成熟的研究课题,在国内还是一个新概念。本文在比较研究的视野下研究我国地方大学教师发展问题,探讨建立专门的教师教育机构、改革高校师资人
随着信息技术、互联网技术的发展,医院智能决策问题越来越突出,门诊收入构成监测就是其中之一。以往收入构成监测研究技术集中在数据统计方面,而收入构成监测是管理者从宏观