大规模句子相似度计算方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:ososa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法:首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,然后针对这些候选实例进行泛化匹配,从而计算出相似句子。在多策略机器翻译系统IHSMTS中的实验表明,当语料规模为20万英汉句对时,系统提取相似句子的召回率达96%。准确率达90%,充分说明了本文算法的有效性。
其他文献
她叫房子,一个很特别的名字。她是河北珂蓝美容服务有限公司的总经理,也是神奇“魔”斑一次性祛斑技术的创始人。
完善社会主义市场经济体系和转变政府职能是我国“十二五”期间乃至更长时期内,调整收入分配格局的两个根本性方向。财政作为调节社会分配关系,促进公正与公平的物质基础和重要
一个组织要实施ISO14001环境管理标准,首先必须深刻理解标准,然后按照一定的程序采逐步建立环境管理体系。
偶得美国前总统乔治·沃克·布什(George W. Bush)的个人传记《抉择时刻》(Decision points)就断断续续读了下来。这本个人传记不是流水账式的,而是围绕若干重大事件展开
经过全球金融危机的洗礼,经济全球化的趋势更为明显,新一轮以科技创新为主导的国家综合实力的竞争日趋激烈,我国经济在稳步回升发展中对可持续发展的要求也日益突出,特别是依托自
目前在认证领域中仍存在着某些误区,企业在贯彻ISO9000时必须注重其目的性和有效性,否则将难以取得良好的经济效益.
自1986年中国银行发行我国第一张银行卡“长城卡”以来,特别是从1993年起开展“金卡工程”,在城市人口中推广普及银行卡以来,经过20多年的发展,我国银行卡的发卡量迅速增长,银行卡
BASF公司宣布,截至2016年10月,BASF公司、海德堡大学、慕尼黑LMU和hte的联合研究项目正从德国联邦教育和研究部获得约150万欧元(170万美元)的赞助。该项目旨在开发利用CO2选择性
OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用。语言模型在OCR后处理,特别是在中文的文字识别后处理方面有
采用PRO-Ⅱ模拟平台,选择NRTL热力学方法,以二甲基亚砜、1-甲基-2-吡咯烷酮(NMP)、N,N-二甲基甲酰胺和乙二醇4种溶剂为萃取剂,采用萃取精馏法对高温费托合成C6馏分脱含氧化合物