汉语专利文献专业术语分词粒度研究

来源 :第六届全国青年计算语言学会议 | 被引量 : 0次 | 上传用户:kqdnf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语分词粒度对统计机器翻译系统性能影响深远。在专利文献中存在着大量的专业术语,适当的专业术语分词粒度,可有效提高统计机器翻译系统性能。为了提高机器翻译性能,本文提出一种规则与统计相结合的方法抽取专利文献中的专业术语,使用词语粘连度对抽取的专业术语的粒度进行控制,实现专业术语的多粒度分词效果。实验结果表明,提出方法可有效调控专业术语的分词粒度,防止专业术语颗粒过大造成的过拟合现象,降低统计机器翻译结果中未登录词的数量,提高翻译质量。
其他文献
问答系统是信息检索的一个重要分支,是新一代信息检索的研究方向,而基于本体知识库的问答系统则是问答系统的一种重要类型。本文设计并实现了基于本体知识库的航空领域问答系统
本文考察了国内基于WordNet的本体构建研究现状,从基于WordNet结构、多渠道获得概念和关系以及基于有向图等三个方面分类评述了其主要方法,归纳出语义相似度计算、核心本体构建
会议
本文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏文语言的特殊性,提出基于中心语块扩展的藏文基本名
会议
A proper quantitative understanding of the dynamic interaction between gas-phase semivolatile organiccompounds (SVOCs) and airborne particles is important for h
会议
以现有的词典资源和分类体系为基础,我们提取了航空领域的主要概念并揭示了概念之间的关系,形成航空领域概念分类谱系,最后构建了一个俄汉双语航空领域本体知识库。将俄汉两种语