国家语料库建设和汉语词表研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wqvbqjxtid1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文首先回顾了语料库建设及语料库语言学的历史,介绍了国内外语料库建设的现状,着重介绍了国家语料库建设的基本情况,因为该文的工作就是在参与国家语料库建设课题的研究中完成的,这是该文开展研究的背景.其次介绍了作者在站两年的主要研究工作——语料库的加工规范及词表的结构化加工.这两项研究工作都是在联系导师陆汝占教授的汉语逻辑语义模型理论指导下进行的,与传统的汉语研究以及一般的中文信息处理研究都很不相同.在词表的结构化加工方面,提出了结构化词表的概念并且开展了工程研究,对近9万词的词表进行了3次结构化加工,其结果已经运用在国家语料库的加工实践中,成效显著;在加工规范方面,在结构化词表的基础上提出了结构化标注的方法,使得加工结果能够适应不同应用系统的需求.而且由于结构化词表标注了许多词法信息,这就使得切词标注软件的设计修改与切词标注规范之间、词表与切词标注软件以及语料校对与最后输出结果之间都能保持相对的独立性,既减少了人工校对的工作量,又保证了语料库加工的一致性与正确率.最后是未来工作的设想,提出了今后努力的具体方向.
其他文献
Internet上出现了一些新式应用,例如分布式会议系统,共享白板,远程教学,协同工作和基于Internet的联机游戏等。在这些应用中同时参与计算的节点有多个,用传统的点对点传输协议构建
近几年,踩踏事件、恐怖袭击等公共安全事件频发,公共安全领域获得越来越多的关注。同时,公共区域监控摄像头日益增多。如果能够对这些监控视频进行有效的实时分析,及时发现和处理
Web平台上的ERP系统是一个基于Web环境的完全开放,可动态扩展的ERP系统。在Web平台上的应用程序体系结构中,系统各应用按照表示层,业务层,服务层分层次实施,表示层按照HTML的形式
情景模式挖掘是序列模式发现的一次延伸和扩展,它的任务是从一条事件序列中获得满足一定规律的有序子序列。自提出以来,情景模式挖掘已经被应用到各种领域中,包括通信网络的警告
该论文主要研究了C/C++语言程序切片中的指针分析算法.在安全性分析工具的设计中,我们采用程序切片技术进行安全性分析.当进行数据流分析时,指针的出现会引起到达一定值的不
用控制器局域网(CAN)装备电动车辆的控制系统是当今国际上最新控制技术之一,基于CAN总线的前移式叉车控制系统成为国际上各大叉车制造公司的研究热点.该文通过对CAN总线通讯
通过对国内外电子政务的现状进行了深入的研究,并参考了国家颁布的电子政务相关标准,同时对政府办公业务实际需求情况进行了非常细致的调研和分析,并对需求进行抽象,在此基础
伴随着LINUX应用的迅猛发展,LINUX操作系统成为当今操作系统研究的主要对象。但是受限于LINUX操作系统设计的复杂性和庞大的代码量,完成整个LINUX操作系统的剖析较为困难。作
企业信息系统在运行的过程中会产主大量的数据和信息,如何分析和处理这些数据以获得对企业有用的决策信息越来越成为系统开发人员关心的问题.数据仓库所要研究和解决的问题就
随着互联网的快速发展,用户对Web服务需求的不断增长,出现了大量不同种类、功能各异的Web应用。Web应用较传统应用具有其特殊性,并且其基于互联网和面向用户大众化的特性,决定了