超大规模语料精加工技术研究与实现

来源 :南京师范大学 | 被引量 : 0次 | 上传用户：zhang_yingliang

【摘要】

：

在自然语言处理领域,高质量的标注语料在信息处理中有重要的应用价值,语料库质量的好坏直接影响到中文信息处理的各项后续工作的展开。对标注语料的高质量精加工要求也迫切至

【作者】

：

丁德鑫

【机构】

：

南京师范大学

【出处】

：

南京师范大学

【发表日期】

：

2010年期

【关键词】

：

中文信息处理标注语料语料精加工歧义消解

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在自然语言处理领域,高质量的标注语料在信息处理中有重要的应用价值,语料库质量的好坏直接影响到中文信息处理的各项后续工作的展开。对标注语料的高质量精加工要求也迫切至极。现有的语料标注问题比较多,传统的手工校对方式已经不能适应建设高质量、大规模语料库的要求。致力于该问题,本文做了如下工作:　　 1.对于自动分词和词性标注中的歧义消解问题,包括组合型、交集型、兼类词歧义,利用CRF、RFR SUM、NaiveBayes、基于知网的语义相似度模型等,在传统的词形、词性特征的基础上,探索增加更多的语言学特征,并采用多分类器集成的方法进行歧义的消解处理。　　 2.对于新词识别,我们利用基于构词规则和基于语料统计相结合的方法,在大规模语料中自动抽取新词。　　 3.对于命名实体的处理,采用程序抽取为主,人工干预为辅的方法,对语料中候选的人名、地名等进行改正处理,并结合中文用语的特点,进行了基于语篇的命名实体识别处理。此外,采用基于知识库和相关领域常用词,如天气领域等典型词作为基本种子来进行扩散处理等诸多方法,进行了成语、天气预报用语、时间短语、数量短语等的校对标注处理。　　 4.在上述加工方法的基础上,建立了一个人机交互式语料精加工平台,大大减轻了人工标注的负担以实现自动化的高效语料加工。　　为了验证该平台的实用性,对2001～2004年的《人民日报》语料和1991～2004年的《新华社》语料进行了精加工处理。处理结果显示,本文的方法可以有效地提高语料加工的质量,加工平台可以提高语料处理的效率,为后续自然语言的研究处理提供了坚实的技术支持。

其他文献

基于支持向量机的混合增量学习算法与应用

支持向量机(Support Vector Machine, S VM)是建立在统计学理论基础上的一种机器学习方法,其拥有坚实的理论基础。它在解决小样本、高纬度、非线性模式识别学习问题中有较多

学位

混合增量学习样本预选策略容忍因子入侵检测

嵌入式GIS森林防火导航系统设计与实现

嵌入式技术的发展使嵌入式GIS成为信息技术领域的研究热点,特别是与GPS技术结合后,极大方便了人们的生产和生活。本系统将嵌入式GIS技术应用于国土资源调查、林业资源管理,特

学位

嵌入式GISGPS森林防火导航空间数据库导航算法

MANET网络传输的实时性研究

Ad hoc网络是由多个结点组成的临时性的移动自组织网络(MANET：MobileAd hoc NETworks)。传统Ad hoc网络广泛应用于军事战场、紧急事件的拯救行动、临时会议等场景中。随着Ad h

学位

移动自组织网络主动检测实时数据传输路由协议

嵌入式软件缺陷定位方法的研究

嵌入式系统是促进信息化与工业化融合的核心技术，是信息技术中发展最快、应用最广的技术。嵌入式系统技术的发展，正在成为中国嵌入式系统产业发展和带动IT产业发展的新增长点。

学位

缺陷定位方法动态测试静态分析堆栈溢出嵌入式软件

应用于网上图书领域的Deep Web实体识别

建立Deep Web集成系统是目前的研究热点,但由于不同网站对同一实体的数据描述在表现形式上存在着差别,导致冗余信息多,给用户的查询带来不便。实体识别是Deep Web集成系统中

学位

Deep Web实体识别Jaccard系数领域本体层次分析法

基于动态代价敏感型贝叶斯网络的软件缺陷预测方法研究

随着计算机软件在各个领域的广泛应用,计算机软件变得愈加的庞大与复杂,软件缺陷预测作为软件开发生命周期中的重要环节,可以及时的发现和纠正开发过程中的缺陷,避免软件后期

学位

缺陷预测静态度量代价敏感贝叶斯网络

异构环境下的网络异常行为特征提取与监测分析

随着Internet高速发展与大面积普及,网络攻击也在不断出现。随着攻击技术的不断进步与更新,攻击工具和手法的日趋复杂,攻击工具的使用却越来越简单,现在的异常检测系统面临着

学位

异常监测网络安全协议驱动数据包

基于改进TFIDF的混合模型文本分类方法研究

文本分类技术是从庞大而杂乱的文本中准确而快速的识别所需信息的关键技术。在文本分类的过程中,文本被送入分类器之前首先要对文本进行预处理工作,包括文本分词、去停用词、

学位

特征选择特征提取TFIDFCVPST-LDA

网格数据挖掘平台下的工作流开发

本文是针对网格数据挖掘平台(本文中指的是BillionGrid平台)进行的工作流设计。在BillionGrid平台中,对于数据挖掘的处理方式是用户每请求处理一次数据便调用一个数据挖掘算

学位

数据挖掘工作流网格

商贸公司综合办公平台的设计实现

近年来,办公自动化(OfficeAutomation, OA)渐渐成为国内外众多企业、服务性行业提高工作效率的主要手段。随着以计算机技术和通讯技术为代表的信息技术的发展,工作流技术逐渐

学位

工作流工作流建模Petri网工作流网

超大规模语料精加工技术研究与实现

与本文相关的学术论文