论文部分内容阅读
术语自动抽取是中文信息处理中的一个很重要的课题。术语集中体现和负载了一个学科领域的核心知识,术语的变化在一定程度上反映了一个学科领域的发展变化。术语抽取对信息检索、信息抽取、数据挖掘、机器翻译、建立领域概念体系等自然语言处理课题的研究,以及了解、把握一个学科领域的发展现状、未来趋向等具有重要的理论和现实意义。 目前,国内对中文信息处理的研究主要集中在汉语自动分词、语法分析上,对术语自动抽取的研究还不是很多。对术语的抽取和检索依赖国外的研究成果,但国外的研究很多局限在西方语言上,对于汉语并不一定适用。因此,借助于国外已有成果来自行研制适合于汉语术语的自动抽取方法,对汉语术语标准化、中文信息处理来说无疑具有十分重要的意义。 本文正是针对目前汉语术语自动抽取的这种现状,对汉语术语自动抽取技术进行了比较深入的探讨,本文的研究工作主要包括以下几个方面: ①对常用自然语言处理模型的本质、优缺点等进行了分析和比较。 ②设计了一套术语自动抽取软件系统,可以适应不同目的的术语抽取。 ③提出并建立了一种将规则和统计方法相结合的汉语术语自动抽取模型,该模型避免了单纯使用其中一种方法抽取术语的局限性。 ④在分析对比各种统计参数的基础上,提出了将两种统计参数mi_f和log-likelihood联合应用到术语自动抽取算法中,并用此算法实现了术语自动抽取系统的核心模块,取得了较好的试验效果,试验结果证明了这种算法优于目前已有的算法。