基于锚点句对的汉维句子对齐方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:wkellyai_0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。
其他文献
目的探讨白介素10受体(IL-10R)的两个基因位点G241A和G520A基因多态性与系统性红斑狼疮(SLE)患者发病的相关性。方法采用聚合酶链反应-单链构象多态性(PCR-SSCP)和聚合酶链反
目的研究新疆红芪(Hedysarum austrosibiricum b.Fedtsch.)的化学成分.方法采用柱色谱法.结果分得4个化合物,经理化性质及波谱方法鉴定为槲皮素(5,7,3′,4′-四羟基黄酮醇)、
多路径传输控制协议(MPTCP)与并发多路径传输控制协议(CMT-SCTP)是下一代互联网多路径并发传输的2种热点技术,但传统拥塞控制算法只适合于单路径传输,应用于多路径传输时会面临
There has been some research on the theory of QFD (Quality Function Deployment) and FMEA (Failure Modes and Effect Analysis) recently, but little work to the in
柑桔是世界第一大水果,世界三大贸易农产品之一。文章介绍了国内外利用柑桔资源进行桔片罐头、柑桔浓缩汁和饮料、柑桔果酒、柑桔果醋研究开发的现状与发展趋势,并简要介绍了
基因型差异是影响小麦幼胚一步成苗培养的主要因素。比较了小麦—簇毛麦易位材料与扬麦5号和中国春的一步成苗培养的污染率、成苗率、再生植株生根培养效率等主要技术指标,建
研究了南沙的尾叶桉林、窿缘桉林、大叶相思林、荔枝林、木麻黄林、尾叶桉×马占相思混交林、尾叶桉×台湾相思×马尾松混交林、赤桉×台湾相思混交林和无林地的土壤理化性质。大叶相思林地肥力最高,荔枝林的肥力较低,木麻黄林地和无林地的肥力低,其余林地的肥力中等。
继发龋是龋病治疗后再度发生的龋损,是迄今为止临床上充填体更换和失败最常见的原因.目前对继发龋的研究较多,本文从继发龋的诊断、检测方法、微渗漏与继发龋、继发龋的细菌
利用硬粒小麦-节节麦人工合成种与四川小麦杂交、回交,育成高抗条锈小麦新品种川麦38(99-607).为明确川麦38抗条锈性状的遗传规律,将川麦38与绵阳26、绵阳335、SY95-71、川育
在分析经济增长过程中,不可避免的要涉及对资本存量K的估算.近年来,国内外一些学者对中国的资本存量进行了估测,但由于在方法和细节处理上的差异,从而造成估算的结果存在很大