术语自动抽取系统的设计及关键技术研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:physicalboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语自动抽取是中文信息处理中的一个很重要的课题。术语集中体现和负载了一个学科领域的核心知识,术语的变化在一定程度上反映了一个学科领域的发展变化。术语抽取对信息检索、信息抽取、数据挖掘、机器翻译、建立领域概念体系等自然语言处理课题的研究,以及了解、把握一个学科领域的发展现状、未来趋向等具有重要的理论和现实意义。 目前,国内对中文信息处理的研究主要集中在汉语自动分词、语法分析上,对术语自动抽取的研究还不是很多。对术语的抽取和检索依赖国外的研究成果,但国外的研究很多局限在西方语言上,对于汉语并不一定适用。因此,借助于国外已有成果来自行研制适合于汉语术语的自动抽取方法,对汉语术语标准化、中文信息处理来说无疑具有十分重要的意义。 本文正是针对目前汉语术语自动抽取的这种现状,对汉语术语自动抽取技术进行了比较深入的探讨,本文的研究工作主要包括以下几个方面: ①对常用自然语言处理模型的本质、优缺点等进行了分析和比较。 ②设计了一套术语自动抽取软件系统,可以适应不同目的的术语抽取。 ③提出并建立了一种将规则和统计方法相结合的汉语术语自动抽取模型,该模型避免了单纯使用其中一种方法抽取术语的局限性。 ④在分析对比各种统计参数的基础上,提出了将两种统计参数mi_f和log-likelihood联合应用到术语自动抽取算法中,并用此算法实现了术语自动抽取系统的核心模块,取得了较好的试验效果,试验结果证明了这种算法优于目前已有的算法。
其他文献
随着移动通信技术和GIS 技术的发展,人们生活水平的逐步提高,位置服务在国内逐渐兴起。由于国内电信运营商拥有无线网络设施、高精度定位系统以及多种增值业务系统,他们在发
随着网络使用的普及以及信息技术的不断进步,Web应用已逐渐成为一种主流的应用模式,如何确保Web应用的可靠性显得越来越重要。Web应用的特点是体系结构复杂、代码量大、页面众
当今,互联网飞速发展,网络新业务层见叠出,网络流量也呈现指数级的增长。网络业务流量的精细识别被广泛应用于规划和管理网络,解决网络用塞,预防网络攻击等方面,成为对防火墙等安全
从20世纪80年代中期开始,光纤通信在电信网中得到广泛的应用,凭借着廉价优良的带宽特性,光纤通信已成为电信网的主要传输手段。光同步数字传送网(SONET/SDH)主要以光纤为传输
在电信企业面向市场,面向国内外众多的竞争者,努力创造更高价值的同时,客户流失的不断增加,客户平均生命周期的不断缩减严重影响了电信企业的发展。如何才能减少客户的流失或
信息技术的发展和互联网规模的壮大,必然导致用户信息接收量的几何增长,信息过载的时代已经来临。在这样一个时代里,我们每天接收着来自外界海量的信息,并不能够有效的选择和筛选
目前我国电信网中使用的通信设备种类繁多,各个电信设备商的通信设备都有自己的网络管理系统。这些设备的网络管理系统的软件体系结构、协议规范、接口、操作界面和操作方法
近年来,无线传感器网络(WSNs)由于具有低成本、自组织、动态拓扑、多跳路由等特点,现已成为许多重要应用中的首选解决方案,例如:入侵检测、目标追踪,实现工业自动化等。无线
“软件即服务”已经成为软件发展的潮流。Web服务下的动态电子商务正是这一思想的结果,它的出现标志着人类已经迈入应用程序开发技术的新纪元,代表着Internet技术和商业结合的
本文首先综述了建立CAT考试系统的各项关键技术,包括CAT的理论基础、数学模型、测试开始条件、后继题目的选择、能力估计算法、测试结束条件等。然后重点解决建立IRT题库的