基于平行语料库和网络的未登录词译文挖掘

来源 :江南大学学报:自然科学版 | 被引量 : 0次 | 上传用户:jinxiangjinshu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度.距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。
其他文献
4月12日,REYES集团宣布收购SWISSTEXFRANCE的全部资产。被收购的公司将以VERDOL新名称运作。REYES集团是一家拥有40年历史的家族企业.是法国著名的工业和独立公司.有300名员工.以
意大利纺织机械制造商协会(ACIMIT)的“可持续技术”项目又向前迈出重要的一步.其绿色标签获得了认证证书。
中国共产党领导的中国工农红军进行的长征,已经过去了70周年。长征,是军事史上的奇迹,是亘古未有的伟大壮举,是历史进程中的一座丰碑。
高速双针味经编机是适应现代化的发展要求的一种高效高性能经编饥,其产品正住向产业用和高技术领域扩展,广泛应用于休闲、运动、建筑结构、医疗、十工织物、纺织结构复合材料戚
文章介绍了新型结构纱线如棉包棉、紧密赛络纺、嵌入纺及新型原料如柔丝棉、高比例涤棉牛仔面料满足高速织造的上浆生产工艺及技术措施。
提出了利用过程历史数据自动进行数据挖掘的PID参数在线自整定算法。算法以PID回路的动态响应特性为依据,通过给定ε-不敏感损失函数、辨识信任度函数,从可行数据集中选取有
贵州自明代立省以来,与外交流渐为畅达,有识之士接踵而至,络绎不绝。黔地雄浑苍茫,壮阔连绵的山川,使多少词客骚人为之诵吟篇章,又使多少丹青妙手为之泼墨挥毫。从传世之作,或文献载
1936年5月,志愿军英雄王清珍出生在汉口。武汉沦陷后,父母就带着不满6岁的她迁至贵州威宁县城定居,王清珍的童年、少年就生活在贵州。
考察了聚苯胺(PANI)修饰阴极对沉积型微生物燃料电池(SMFC)产电性能和有机质去除率的影响。衰减全反射红外光谱(ATR)表征证明修饰电极表面PANI为导电的质子掺杂状态。电化学阻抗谱(E
介绍了描述逻辑系统的结构,对基本的描述逻辑语言以及推理机制进行了描述。重点概述了描述逻辑的动态扩展、模糊以及概率扩展的研究状况,并根据其应用领域对描述逻辑的研究趋势