中文术语自动抽取相关方法研究

被引量 : 0次 | 上传用户:nishi1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文术语自动抽取是中文信息处理中的一项基础性课题,在很多领域都有很重要的作用。如自然语言生成、计算词典编撰学、句法分析、语料库语言学的研究、统计机器翻译、信息检索、文本分类、文本摘要等领域中有广泛的应用。特别是针对开放语料而言,术语抽取的作用显得十分重要。 中文术语抽取的主要难点在于目前较成熟的算法难以应用到多字术语的抽取上。本文研究了术语在统计学上和在语言上的特点,总结了术语的两个基本特征:单元性(Unithood)和术语性(Termhood),并将根据中文术语的组成方式将术语分为两类:简单术语与复杂术语。通过对各种术语抽取模型的对比分析,本文对中文术语抽取进行了深入研究。 第一,建立了针对复杂术语的字符串分解模型。通过对中文多字术语特征的研究,并在国内外其他研究者的基础上进一步深入地探讨了多字术语与简单术语之间的关系,并提出了能深刻描述这种关系的符合术语构词特点的字符串分解模型。 第二,综合C-value参数和互信息参数的优点,构造了用于中文术语抽取的F-MI参数及其公式。该参数的设计符合术语的构成特点,测试实验显示出了良好的效果。 第三,设计并实现了针对开放语料的中文术语自动抽取系统。 第四,提出了建立错误术语库的思想。错误术语库将有助于在其他研究或应用中避开错误术语的影响,也有助于在评测中减少人工评测的工作量,还可以供研究者对错误术语进行研究,改进术语抽取算法,进一步提高抽取精度。 综合运用论文中研究的方法和设计的抽取系统,对2005年的部分网络文本分别采用了本文提出的抽取算法和传统的抽取算法进行抽取测试,实验结果的对比分析显示,本文方法优于传统的典型术语抽取方法,实验总体精度达到了73.2%,从而验证了论文中提出的各种方法的有效性和可行性。
其他文献
土壤微生物是土壤生态系统的重要组成部分,对土壤微生物活性的研究是近年来土壤生态学研究的热点。本文综述了环境因子包括CO2、O3、温度等以及土壤管理措施对土壤微生物活性
<正>番茄黄化曲叶病毒(TYLCV)是一种毁灭性病害,由烟粉虱危害传染引起,一旦发生,番茄产量受严重影响。2005年上海首次报道番茄黄化曲叶病毒
<正>生产绿色蔬菜已成为当前蔬菜生产者的主要任务,也是农业管理部门的重要工作。制约绿色蔬菜生产的因素很多,而如何在蔬菜病虫害防治中正确选择与使用各种农药,则成为发展
在数量众多、有不同表现手段的生活服务类节目中,老年生活服务类节目是更具个性色彩的节目形态,也因此区别于其它生活服务类节目。它的服务对象直接指向老年收视群,触及的层面看
服装设计和服装展示作为整个品牌管理流程中两个重要环节,正好位于流程的最前段和最后端,二者在品牌管理的诸多方面上具有关联性。服装设计和服装展示携手并进,可以使服装品
车辆的车型识别是智能交通系统应用领域中的重要分支,在高速公路收费管理系统中起着重要作用。由于车脸区域拥有丰富的车辆特征信息,所以研究基于车辆正面图像的车型识别技术
<正>改革开放以来,张家口戏曲艺术研究院坚持"二为"方向、"双百"方针和"三贴近"原则,以饱满的热情和创造性的劳动,讴歌伟大时代,弘扬民族精神,赞美火热生活,创作生产了一批作
作为新型植物激素和信号分子水杨酸广泛参与植物生长和发育的各个过程,介导植物体对生物和非生物逆境胁迫的应答。外源施加水杨酸可改变植物的生长和发育模式,不同环境胁迫可
儒家礼学有着较强的实践性,朱熹出于应对佛老的挑战和纠正当时学界重空谈义理而轻道德实践的流弊的需要,更为强调儒礼的实践特质及其在日常生活中的应用实践。在朱熹看来,“
利用植物修复污染土壤是一种被人们认为安全可靠的方法.植物修复技术不仅能修复被石油污染的土壤,而且对更多品种污染的土壤修复有效,植物降解高分子有毒化合物的基础是根际