【摘 要】
:
双语词典是一种重要的语言资源,但现有的基于可比语料库的双语词典抽取方法在体系结构、所依赖的基础性资源等方面差异较大,这使得在统一的实验条件下对各种算法进行比较变得
【基金项目】
:
国家自然科学基金项目(61300144)资助;国家语委科研项目(YB125-132)资助;中央高校基本科研业务费专项资金项目(CCNU15A05062,CCNU16A06015)资助
论文部分内容阅读
双语词典是一种重要的语言资源,但现有的基于可比语料库的双语词典抽取方法在体系结构、所依赖的基础性资源等方面差异较大,这使得在统一的实验条件下对各种算法进行比较变得很困难.因此,目前的研究工作多选择将性能评测任务限定在很狭小的范围内,缺乏统一的评测结果给双语词典抽取任务的发展和算法的选择带来一定困难.为解决上述问题,选取并实现了四种代表性的双语词典抽取方案,在统一的测试数据集上进行比较研究.在比较研究中,我们重点揭示了词典抽取任务中几种关键因素如语料库大小、训练词典大小等对各算法性能的不同影响程度.本文的结论对今后相关工作中的实验设计、性能比较与算法选用都具有重要的理论意义和实践价值.
其他文献
命名实体等价对是自然语言处理中的重要基础资源,在跨语言信息检索、机器翻译等领域都有重要应用。与其它大语种相比,由于语料规模和基础研究的欠缺,目前在汉柬命名实体等价
摘要 利用寿阳县1961—2018年逐月降水资料,采用降水Z指数作为气象干旱等级指标,分析该地区的干旱变化特征。结果表明,近58年来,寿阳县年气候呈干旱化趋势,出现干旱16年,发生频率为27.6%,1997—2010年期间干旱发生频率最高,干旱程度最为严重;季节干旱中,春季有湿润化趋势可能,夏、秋、冬季呈不明显干旱化趋势;四季干旱发生频率方面,春季为32.8%、夏季为27.6%、秋季为37.9%
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
以马来酸酐(MA)和丙烯酸(AA)为原料,采用活泼单体滴加的方式,通过水溶液自由基共聚合反应制备了MA/AA二元共聚物(PMAAA)。采用FTIR对产物的结构进行了表征,通过正交实验和单
“我无法证实,甚至无法解释,但我知道这是真的,关于宇宙、幻想。作为人类,我们是多么渺小而微不足道,但同时我们的存在又是多么地可贵。我们必须有所敬畏地活着,敬畏着一个比我们更
为研究某中西部地区机场粗粒土的压实特性及其高填体的沉降规律,开展了粗粒土的颗粒分析、重型击实、最大干密度、压缩模量试验,测试和验证了粗粒土的不均匀系数、击实参数等
真正的创意为什么永远只属于极少数人。回答这个问题非常难,我却一直想要穷根究底。因为对创业者而言,拥有正确的创意太重要,太刻不容缓,太值钱了。