基于动态流通语料库（DCC）的信息技术领域新术语自动提取研究

来源 :北京语言文化大学 | 被引量 : 24次 | 上传用户：lionschen2009

【摘要】

：

本文以动态语言知识更新理论为指导，以信息技术领域为实验对象，对基于大规模动态流通语料库的术语提取技术进行研究，提出了利用接续指数判断字符串词语度的方法，实现了“接续指数

【作者】

：

王强军

【出处】

：

北京语言文化大学

【发表日期】

：

2003年01期

【关键词】

：

动态语言知识更新动态流通语料库术语自动提取新术语接续指数 TFIDF 领域相减

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文以动态语言知识更新理论为指导，以信息技术领域为实验对象，对基于大规模动态流通语料库的术语提取技术进行研究，提出了利用接续指数判断字符串词语度的方法，实现了“接续指数+TFIDF+领域相减”进行术语提取的技术路线和工作流程，初步形成了一个基于动态流通语料库的信息技术领域新术语提取系统。本文介绍了动态语言知识更新理论体系和基于动态流通语料库的研究框架，提出了动态流通语料库建设的扩展方案，使之在扩展研究范围和研究深度的同时保持与现有系统的全面兼容，并具有较好的可扩缩性。新术语首先是术语，它具有术语的三个基本特征：一般只在一个或几个特定的领域出现；是本领域的高流通度词语：在其他领域的流通度接近于0。基于此，本文的基本思路是通过研究已有术语在语料库中的分布情况，确定新术语在语料库中的可能分布情况，通过分析各种阈值条件下已有术语的提取结果，确定提取新术语的最佳阈值条件。新术语往往是未登录词语，所有未登录词语识别的困难在新术语提取中同样存在，经过传统的自动分词方法处理的语料对新术语的提取跟对未登录词语识别一样存在困难，因此，为了尽可能多的保留新术语，本文采用了全切分方法对语料进行前期处理。一个字符串在特定的上下文中成为术语的两个指标是词语度(unithood)和术语度(termhood)。本文提出接续指数的概念用于衡量一个字符串的词语度。实验表明接续指数对于判断一个字符串是不是一个完整的词语具有比较明显的效果。在提取方法上本文提出了“接续指数+TFIDF+领域相减”的方法。利用接续指数判断字符串的词语度，利用“TFIDF+领域相减”的方法判断字符串的术语度。该方法在动态流通语料库(DCC)的部分语料(目标语料1700万字，对照语料6亿字)上进行实验，结果表明，在基于大规模语料库的术语自动提取中，本论文所采用的语料处理方法和术语提取技术对新术语的发现有较为显著的效果，在较少人工干预的基础上，提取出较多新术语，部分地实现了传统分词方法难以完成的任务。另外，本文讨论了术语提取的两种工作模式：“文件+索引+统计结果”模式和“文件+数据库”模式，分析了两者的优缺点，指出后者是动态语言知识更新在语言监控方面较好的应用。综上所述，本文的创新之处有如下几个方面： 1．提出了接续指数的概念。 2．把接续指数用于衡量一个字符串的词语度。 3．在术语提取方法上，提出了“接续指数+TFIDF+领域相减”的方法。本研究所形成的初步的术语提取系统可为专业领域术语提取、动态流通语料库建设提供原型和参考。

其他文献

术前评估与安全策略构架对高龄陈旧性股骨转子间骨折髋关节置换手术患者的影响

目的：探讨术前评估与安全策略构架在人工髋关节置换术治疗高龄陈旧性股骨转子间骨折中的应用效果。方法：回顾性分析收治的高龄陈旧性股骨转子间骨折患者的临床资料。结果：观察组

期刊

护理术前评估安全策略构架股骨转子间骨折

项目式《市场调查与预测》课程实践教学设计

《市场调查与预测》课程是一门技术性与应用性很强的学科,项目教学法是目前比较适合的一种教学方法。笔者结合教学实践经验,就如何在实际教学活动中贯彻实施项目式实践教学进

期刊

市场调查与预测实践教学项目教学法问卷调查

支持高级明暗处理和凸凹纹理映射的硬件体系结构

Ｐｈｏｎｇｓｈａｄｉｎｇ和Ｂｕｍｐｍａｐｐｉｎｇ技术被认为是下一代图形硬件必须支持的技术技术，因而是目前图形硬件研究的重点，但到目前为止，尚未找到一种被广泛认可有效的硬件实现算法。本文对这一研究领域的一些实现

期刊

计算机图形硬件明暗处理凸凹纹理映射Computer graphics hardware Phong shading Bump mapping

基于数据取样的DBSCAN算法

取类是数据挖掘领域中的一个重要研究课题。聚类技术在许多领域有着广泛的应用，基于密度的聚类算法DBSCAN是一种有效的空间聚类算法，它能够发现任意形状的类并且有效地处理噪声

期刊

空间数据库数据挖掘DBSCAN算法数据取样Large scale database Data mining ClusteringSamplingDBSC

鹰嘴界自然保护区不同森林类型保育土壤效益研究

为了研究森林生态系统保育土壤的功能及效益,以鹰嘴界自然保护区为研究对象区域,采用野外调查与室内分析相结合的方法,对该保护区内阔叶林、杉木毛竹混交林和杉木林3种森林类

期刊

保育土壤森林类型影子工程法市场价值法鹰嘴界自然保护区soil conservation forest types shade engineering

焊接金属基板的制造工艺改良

焊接金属基板是PCB和金属基通过高温锡膏焊接制成的金属基PCB。文章主要从焊接金属基板的槽位/安装孔/板边流锡和缝隙、板面锡珠、焊接空洞等方面研究,解决焊接金属基板制造

期刊

焊接铜基板锡珠缝隙空洞

汉英存在句比较研究

本论文在原则与参数理论框架下,以“有”字句和"There be"句为例,对汉英存在句进行了对比研究。文中大量、详实的例证主要来自汉语经典著作中“有”字句的部分语料、英语国家

学位

普遍语法原则“有”字存在句“there be”存在句对比研究句法结构语义内容ROM语义模型

机构话语视角下的教育话语—中小学课外活动情景话语研究

作为机构话语具体类型之一,教育话语的研究具有多学科交叉的特征,教育学、语言学、社会学、心理学等学科的研究方法均可被借鉴用来研究教育话语。教育话语在教育机构实现其核

学位

机构话语教育话语课外活动情景话语

WestRock公司将投资4.1亿美元改造其位于南卡罗来纳州的牛皮箱纸板厂

WestRock公司近日宣布将投资其位于南卡罗来纳州佛罗伦萨的牛皮箱纸板厂，以提高工厂的效率、质量和服务水平。WestRock计划将在2年内投资4．1亿美元，新上1台最先进的牛皮箱纸板机

期刊

牛皮箱纸板WestRock南卡罗来纳州

艾司奥美拉唑镁微丸肠溶包衣工艺的风险评估与设计空间考察

基于质量源于设计(Qb D)的理念,采用尤特奇~?丙烯酸树脂和流化床底喷包衣工艺制备艾司奥美拉唑镁肠溶微丸。根据研发生产经验和科学知识进行风险评估,确定以微丸收率和药物释

期刊

艾司奥美拉唑镁尤特奇~?丙烯酸树脂肠溶微丸包衣工艺均匀设计风险评估设计空间

基于动态流通语料库（DCC）的信息技术领域新术语自动提取研究

与本文相关的学术论文