大规模句子相似度计算方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：ososa

【摘要】

：

如何根据源语言文本从大规模语料库中找出其最相近的翻译实例，即句子相似度计算，是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法：首先基于句子的词表

【作者】

：

黄河燕陈肇雄张孝飞张克亮

【机构】

：

中国科学院计算机语言信息工程研究中心,南京理工大学

【出处】

：

中文信息学报

【发表日期】

：

2006年B03期

【关键词】

：

句子相似度基于实例的机器翻译多策略机器翻译泛化匹配 sentence similarity example-based machine transla

【基金项目】

：

国家自然科学基金资助项目（60502048,60272088）,国家863计划资助项目（2002AA117010-02）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如何根据源语言文本从大规模语料库中找出其最相近的翻译实例，即句子相似度计算，是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法：首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例，然后针对这些候选实例进行泛化匹配，从而计算出相似句子。在多策略机器翻译系统IHSMTS中的实验表明，当语料规模为20万英汉句对时，系统提取相似句子的召回率达96％。准确率达90％，充分说明了本文算法的有效性。

其他文献

房子：顾客成就了我的事业

她叫房子，一个很特别的名字。她是河北珂蓝美容服务有限公司的总经理，也是神奇“魔”斑一次性祛斑技术的创始人。

期刊

事业顾客创始人一次性

多渠道缩小收入分配差距

完善社会主义市场经济体系和转变政府职能是我国“十二五”期间乃至更长时期内，调整收入分配格局的两个根本性方向。财政作为调节社会分配关系，促进公正与公平的物质基础和重要

期刊

收入分配差距社会主义市场经济体系多渠道转变政府职能收入分配格局社会分配关系收入差距问题“十二五”

建立ISO14001体系的一般程序

一个组织要实施ISO14001环境管理标准,首先必须深刻理解标准,然后按照一定的程序采逐步建立环境管理体系。

期刊

ISO14001环境管理标准

在复杂的环境中决策——读《抉择时刻》（上）

偶得美国前总统乔治·沃克·布什（George W. Bush）的个人传记《抉择时刻》（Decision points）就断断续续读了下来。这本个人传记不是流水账式的,而是围绕若干重大事件展开

期刊

决策过程择时美国前总统环境个人传记伊拉克战争阿富汗问题中东问题

合作创新是建设创新型国家的重要途径

经过全球金融危机的洗礼，经济全球化的趋势更为明显，新一轮以科技创新为主导的国家综合实力的竞争日趋激烈，我国经济在稳步回升发展中对可持续发展的要求也日益突出，特别是依托自

期刊

创新型国家合作创新社会可持续发展经济全球化国家综合实力国际能源机构对外依存度金融危机

质量体系认证有效性的剖析（下）

目前在认证领域中仍存在着某些误区,企业在贯彻ISO9000时必须注重其目的性和有效性,否则将难以取得良好的经济效益.

期刊

质量体系认证企业有效性ISO9000

“十二五”规划应启动“农卡工程”

自1986年中国银行发行我国第一张银行卡“长城卡”以来，特别是从1993年起开展“金卡工程”，在城市人口中推广普及银行卡以来，经过20多年的发展，我国银行卡的发卡量迅速增长，银行卡

期刊

“金卡工程”规划银行卡中国银行城市人口支付功能消费习惯城市居民

BASF公司的研究人员寻求从二氧化碳生产甲醛的途径

BASF公司宣布，截至2016年10月，BASF公司、海德堡大学、慕尼黑LMU和hte的联合研究项目正从德国联邦教育和研究部获得约150万欧元（170万美元）的赞助。该项目旨在开发利用CO2选择性

期刊

BASF公司氧化生产甲醛二氧化碳研究人员选择性氢化催化剂系统开发利用

手写中文地址识别后处理方法的研究

OCR（光学字符识别技术）作为方便有效的字体识别技术，在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用。语言模型在OCR后处理，特别是在中文的文字识别后处理方面有

期刊

人工智能模式识别OCR语言模型后处理artificial intelligence pattern recognition OCR langu

萃取精馏脱高温费托合成C_6馏分中的含氧化合物

采用PRO-Ⅱ模拟平台,选择NRTL热力学方法,以二甲基亚砜、1-甲基-2-吡咯烷酮（NMP）、N,N-二甲基甲酰胺和乙二醇4种溶剂为萃取剂,采用萃取精馏法对高温费托合成C6馏分脱含氧化合物

期刊

费托合成萃取精馏含氧化合物C6馏分过程模拟Fischer-Tropsch synthesis extractive distillation ox

大规模句子相似度计算方法

与本文相关的学术论文