基于平行语料库和网络的未登录词译文挖掘

来源 :江南大学学报：自然科学版 | 被引量 : 0次 | 上传用户：jinxiangjinshu

【摘要】

：

分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先，提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法，借以自动从网页信息中抽取和构建双语平行语

【作者】

：

孙萌梁颖红葛运东颜振祥姚建民

【机构】

：

江苏省现代企业信息化应用支撑软件工程技术研究开发中心,苏州大学计算机学院

【出处】

：

江南大学学报：自然科学版

【发表日期】

：

2010年1期

【关键词】

：

OOV翻译网络挖掘平行双语语料库构建 OOV translation web mining parallel corpora mining

【基金项目】

：

江苏省现代企业信息化应用支撑软件工程技术研究开发中心项目（SX200907）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先，提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法，借以自动从网页信息中抽取和构建双语平行语料库。其次，提出一种结合互信息的频率变化方法生成多词单元，并采用频度．距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比，实验表明基于网络的Top10的包含率达到94．6％，而基于平行语料库的Top10的包含率为37．5％。

其他文献

SWISSTEXFRANCE被收购，更名为VERDOL公司

4月12日，REYES集团宣布收购SWISSTEXFRANCE的全部资产。被收购的公司将以VERDOL新名称运作。REYES集团是一家拥有40年历史的家族企业．是法国著名的工业和独立公司．有300名员工．以

期刊

收购工程设计家族企业工业化电控箱一体化配电室资产

ACIMIT绿色标签获得RINA认证证书

意大利纺织机械制造商协会（ACIMIT）的“可持续技术”项目又向前迈出重要的一步．其绿色标签获得了认证证书。

期刊

认证证书绿色标签RINA纺织机械制造商意大利

“长征” 称谓最早出自红军转战贵州时的一份文件中

中国共产党领导的中国工农红军进行的长征，已经过去了70周年。长征，是军事史上的奇迹，是亘古未有的伟大壮举，是历史进程中的一座丰碑。

期刊