中文领域术语自动获取方法的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:xytw895
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文术语自动抽取是中文信息处理中的一项基础性研究课题,在很多领域都有很重要的作用。如在语言学中的自然语言生成、计算词典编撰学、句法分析、语料库语言学研究等,在自然语言处理领域中的机器翻译、信息检索、文本分类、文本摘要、领域本体等领域中都有广泛地应用,特别是针对领域语料而言,术语抽取的作用显得更加重要。目前,国内有许多学者致力于中文术语的自动提取,也提出了一些有效的方法,但是,总体技术水平还不成熟;又因为中文文字具有粘合性的特点,字与字之间不像英文那样用空格隔开,处理过程比英文复杂的多,所以国外的术语提取方法对于中文术语提取也不太适用。因此,自行研制适合于中文的领域术语自动提取方法,对中文信息处理来说具有十分重要的意义。本文正是在这种背景下,对中文领域术语提取进行了比较深入的研究,提出了一种术语自动提取的方法。本文的主要研究工作包括以下几个方面:第一:总结了术语的各种表现特征,分析了各种术语自动获取方法的特点,并对比分析国内外在术语自动抽取领域的研究成果。第二:在分析空间向量模型和词频的基础上提出了一种改进的TFIDP方法,并以此方法进行领域文本的选取,该方法能够从混合文本中选出某一领域的文本,通过实验证明了该方法的有效性。第三:在分析常用的领域术语提取方法和贝叶斯推理的基础上,将贝叶斯推理引入到领域术语提取中,然后研究了贝叶斯推理过程中所用到的计算公式,最后给出了基于贝叶斯推理的领域术语获取过程,并设计了该方法的核心模块。
其他文献
软件产品族的开发方法作为系统性复用方法,是对于瞬息万变的软件需求、新软件危机以及传统商业模式缺陷的有效解决办法之一。软件产品族演化是软件产品族生命周期中的重要组
随着人类生活和社会经济的快速发展,如今,机器人的应用越来越广泛,几乎渗透到所有领域,因此机器人已经成了社会各个领域中无法取代的必要设备。模块化蛇形机器人采用模块化可
奶牛识别是奶牛管理的重要组成部分,以前对奶牛的识别主要依靠人工识别,现在主要采用电子标签识别,而用计算机通过对奶牛图片的分析进行识别对奶牛管理是一个新的领域。本文对奶
无线传感器网络由传感技术、通信技术和智能服务应用三大技术组成,分别完成对被测量对象的信息提取、信息传输与信息处理。信息传播是无线传感器网络的重要内容,而发布/订阅
随着经济的蓬勃发展,城市化步伐急剧加快,自动扶梯的使用数量也随之飞速增长,它广泛应用于商场、宾馆、机场、车站等公共场所。但是,自动扶梯在节能和安全方面存在缺陷:(1)自
隐蔽信道是信息隐藏技术的扩展,它不像加密方法一样将密文暴露给攻击者,而是通过隐藏通信信道的方法来隐蔽地将信息从一端传递到另一端。因此,隐蔽信道是确保信息安全传输的
随着互联网应用的不断增加,网络流量呈爆炸式地增长,作为网络中交换结点的路由器,其体系结构和应用软件在不断的发展,以适应不断变化的路由器需求。动态内存管理作为路由器基
用户越来越习惯在目前流行的论坛社区等网站上进行知识分享,沟通与阅读有趣文章。然而,在论坛大量的内容中,用户却很难在信息过载的情况下找到他们感兴趣的帖子。有两个原因
本文提出了一种基于数字水印和数字签名技术的电子签章系统解决方案,在一定程度上解决了电子签章系统的安全问题。   通过对目前多种流行的电子签章系统的研究和分析,发现大
在后基因组时代,随着数百个物种的全基因组测序的完成以及基因组注释信息的日益完善,可以较可靠地从基因组信息重建物种特异的代谢网络。系统地分析代谢通路和代谢物之间如何作