基于归纳学习法的日语假名和汉语实体对自动获取方法

被引量 : 2次 | 上传用户:soogler
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体的翻译等价对在跨语言信息处理中非常重要,其在机器翻译、自动文摘、跨语言信息检索和自动问答系统等都有着重要的应用。传统抽取方法通常使用平行语料库或可比语料库,此类方法受到语料库资源的质量和规模的限制。在日汉翻译领域,一方面,双语资源相对匮乏;另一方面,对于汉字命名实体,通常使用汉字对照表;对于日语纯假名的命名实体,通常采用统计翻译模型,此类方法受到平行语料库的质量和规模的限制,且精度低下。针对此问题,本文提出了一种基于归纳学习法的日语假名和汉语实体对的自动获取方法。该方法首先使用条件随机场模型,分别从日语和汉语语料库中抽取日语和汉语命名实体;并将其转换为罗马字序列和拼音序列,通过相似度计算进行实例筛选;然后,采用基于实例的归纳学习法自动获取命名实体的日汉音译规则库,并通过反馈学习来迭代重构音译规则库。使用音译规则库计算日汉命名实体之间的相似度,给定阈值判定命名实体翻译等价对。实验结果表明,提出方法简单高效,在实现系统高精度的同时,克服了传统方法对双语资源的依赖性。与传统方法相比,本研究内容的创新点体现在,提出了一种基于归纳学习法的日语假名和汉语实体对的自动获取方法。该方法突破了传统方法实验平行语料库或对比语料库的限制,可使用弱相关的双语语料来抽取假名和汉语实体对,减少了对语料资源的依赖度,可大大降低人工成本。
其他文献
目的 探讨宫环止血片治疗铜宫内节育器(Cu-IUD)所致子宫异常出血的作用机理。方法 以黄体酮和缩宫素作对照,用LMS二道生理记录仪和JH-2肌张力传感器观察大鼠子宫平滑肌的收
目前,费用控制是公立医院内部控制的重点,但公立医院费用控制存在着重视不够、财务监督弱化,会计核算信息系统与医疗管理信息系统相脱节,费用控制相关岗位分工不合理等问题。
研究目的通过对卵巢功能低下患者运用郭氏调周序贯疗法治疗前后的月经情况、基础血清激素水平、主要临床症状、妊娠情况及卵巢最大切面直径进行对比,评价郭氏调周序贯疗法的
目的优化吴茱萸次碱固体脂质纳米粒(Rut-SLN)的处方。方法以薄膜-超声法制备Rut-SLN,以包封率、平均粒径、Zeta电位为评价指标,采用星点设计考察单硬脂酸甘油酯/主药质量比(A
目的探讨血清淀粉样蛋白A(SAA)、C反应蛋白(CRP)和SAA/CRP比值在早期诊断儿童甲型流感的临床应用价值。方法选取2016年4-6月诊断为甲型流感的139例患儿为研究对象,另选取健康
房地产行业在我国备受关注,其关系着我国居民的住房以及经济发展等。由于房地产行业在进行经营的过程中涉及的经济数额较大,资本投入较多,因此房地产企业的纳税金额一直较高,
父亲雷振邦是中国作曲界的一代宗师,留下经典无数:《五朵金花》、《刘三姐》、《冰山上的来客》、《蝴蝶泉边》、《世上哪有树缠藤》、《花儿为什么这样红》等。女儿雷蕾大器
期刊
<正>时间现代地点江西高安人物贾克玖男60多岁江西高安贾家村党总支书记傅连平男45岁高安贾家村村主任肖织英女55岁贾克玖之妻贾晓莲女25岁贾克玖之女贾印山男80多岁贾家村村
介绍国内外有关精神分裂症的预后和结局的研究进展。认为药物治疗及心理社会干预可使精神分裂症患者整体功能获得最大改善,促使患者回归社会。