超大规模语料精加工技术研究与实现

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:zhang_yingliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域,高质量的标注语料在信息处理中有重要的应用价值,语料库质量的好坏直接影响到中文信息处理的各项后续工作的展开。对标注语料的高质量精加工要求也迫切至极。现有的语料标注问题比较多,传统的手工校对方式已经不能适应建设高质量、大规模语料库的要求。致力于该问题,本文做了如下工作:   1.对于自动分词和词性标注中的歧义消解问题,包括组合型、交集型、兼类词歧义,利用CRF、RFR SUM、NaiveBayes、基于知网的语义相似度模型等,在传统的词形、词性特征的基础上,探索增加更多的语言学特征,并采用多分类器集成的方法进行歧义的消解处理。   2.对于新词识别,我们利用基于构词规则和基于语料统计相结合的方法,在大规模语料中自动抽取新词。   3.对于命名实体的处理,采用程序抽取为主,人工干预为辅的方法,对语料中候选的人名、地名等进行改正处理,并结合中文用语的特点,进行了基于语篇的命名实体识别处理。此外,采用基于知识库和相关领域常用词,如天气领域等典型词作为基本种子来进行扩散处理等诸多方法,进行了成语、天气预报用语、时间短语、数量短语等的校对标注处理。   4.在上述加工方法的基础上,建立了一个人机交互式语料精加工平台,大大减轻了人工标注的负担以实现自动化的高效语料加工。   为了验证该平台的实用性,对2001~2004年的《人民日报》语料和1991~2004年的《新华社》语料进行了精加工处理。处理结果显示,本文的方法可以有效地提高语料加工的质量,加工平台可以提高语料处理的效率,为后续自然语言的研究处理提供了坚实的技术支持。
其他文献
支持向量机(Support Vector Machine, S VM)是建立在统计学理论基础上的一种机器学习方法,其拥有坚实的理论基础。它在解决小样本、高纬度、非线性模式识别学习问题中有较多
嵌入式技术的发展使嵌入式GIS成为信息技术领域的研究热点,特别是与GPS技术结合后,极大方便了人们的生产和生活。本系统将嵌入式GIS技术应用于国土资源调查、林业资源管理,特
Ad hoc网络是由多个结点组成的临时性的移动自组织网络(MANET:MobileAd hoc NETworks)。传统Ad hoc网络广泛应用于军事战场、紧急事件的拯救行动、临时会议等场景中。随着Ad h
嵌入式系统是促进信息化与工业化融合的核心技术,是信息技术中发展最快、应用最广的技术。嵌入式系统技术的发展,正在成为中国嵌入式系统产业发展和带动IT产业发展的新增长点。
建立Deep Web集成系统是目前的研究热点,但由于不同网站对同一实体的数据描述在表现形式上存在着差别,导致冗余信息多,给用户的查询带来不便。实体识别是Deep Web集成系统中
随着计算机软件在各个领域的广泛应用,计算机软件变得愈加的庞大与复杂,软件缺陷预测作为软件开发生命周期中的重要环节,可以及时的发现和纠正开发过程中的缺陷,避免软件后期
随着Internet高速发展与大面积普及,网络攻击也在不断出现。随着攻击技术的不断进步与更新,攻击工具和手法的日趋复杂,攻击工具的使用却越来越简单,现在的异常检测系统面临着
文本分类技术是从庞大而杂乱的文本中准确而快速的识别所需信息的关键技术。在文本分类的过程中,文本被送入分类器之前首先要对文本进行预处理工作,包括文本分词、去停用词、
本文是针对网格数据挖掘平台(本文中指的是BillionGrid平台)进行的工作流设计。在BillionGrid平台中,对于数据挖掘的处理方式是用户每请求处理一次数据便调用一个数据挖掘算
近年来,办公自动化(OfficeAutomation, OA)渐渐成为国内外众多企业、服务性行业提高工作效率的主要手段。随着以计算机技术和通讯技术为代表的信息技术的发展,工作流技术逐渐