HNC语料库标注体系浅识

来源 :第二届HNC与语言学研讨会 | 被引量 : 0次 | 上传用户:zhangjiakou00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
HNC立足于在概念空间研究概念联想脉络,用人工设计的符号体系突现自然语言内在的关联知识。同时它服务于自然语言理解处理,需要借助语料库这一工具完善理论设计。在技术层面,语料库将为分清技术关键点的轻重缓急提供依据。因此,语料库是HNC研究的重要资源。HNC在发展过程也非常注重语料库的建设,以HNC句类理论为基础,设计建立了语料标注体系。在实际标注中多次调整,使得标注体系具有较好的可操作性。 HNC的语料标注体系将标注的内容分成概念空间和语言空间两个层面。语言空间主要标注各种语义块之间的切分点,在语义块内部标注优先组合的单位以及层级关系。语言空间的标注以句号为单元。在汉英双语对照语料的标注过程中,以长句的句号为单元。在概念空间主要标注对应的句类代码,句蜕的类型和各种辅块的类型。在标注体系中,以句类代码为纲,尽管在标注体系中没有显式地给出词语级的语义标记,但通过句类代码,可以在句类知识的约束下消除词语意义的模糊。另外,由于标注是以句号为单位,两个句号之间的逗号分隔的往往是句子,而这些句子之间经常共享主语义块,对于这种情况标注体系也提供了标注符号。 通过实际语料的标注表明,语料标注体系在语义深层进行标注,提供了语句的关键信息,能够胜任HNC语料库的功能。
其他文献
本文阐述了简明状态句的句类知识,以利于该句类的理解处理。主要内容包括:(1)状态内容SC的特征:做SC成分的概念类别;SC之前的辅块优先条件辅块;SC可有上下装。(2)简明状态句与其
本文首先对"坚持"的句类其句类知识表示进行了简要说明,然后根据不同句类的特征对各种"坚持"句进行了描述,对容易混淆的"坚持"句进行了辨析,最后讨论了语境知识对"坚持"句类
现代汉语中有两类特殊的存在句--"有"字存在句和"是"字存在句。有字存在句就是中段动词为"有"的特殊存在句;"是"字存在句是中段动词为"是"的特殊存在句。本文对这两类存在句从
本文论述了语义块分离与融合现象,揭示了分离与语句格式的关系,分析了EK分离的类型与去向,给出了分离语句表示式,阐释了分离与句蜕的交织现象。
宝利通公司日前宣布VVX1500系列推出业界首款同步双协议(H.323和SIP)设备——VVXTM1500D商务可视电话。采用H.323视频环境、并计划将视频和电话通信过渡到统一通信平台。此次
汉语、英语属于不同的语系,各自有着不同的特点,在汉英机器翻译中是个不容忽视的难点,本文就汉英机器翻译中的辅块及多元逻辑组合问题进行了探讨,总结了一些规则。
句类转换是翻译过渡处理过程中的关键环节,本文以作用效应句为研究对象,观察了它在汉英对照语料中分别向作用句、Xym*21J混合句、转移句、因果句和迭句等句类转换的具体情形,
本文首先简要介绍了HNC理论及其机器翻译观,结合机器翻译的难点与原型句蜕存在的普遍性,说明了解决原型句蜕变换的意义;接着对原型句蜕构成现象进行了描述,从汉英语义块构成对
句类转换是翻译过渡处理过程中的关键环节,本文以因果句为研究对象,通过探索它在汉英对照语料中分别向作用效应句、作用句、效应句、关系句、状态句、是否判断句等句类转换的具
汉语原型句蜕的英译形式多种多样,其中变换成英语的多元逻辑组合是涉及比较复杂变换细节的一种,因而成为颇具特色的语义块构成变换子类。文章从概念阐释入手,详尽分析了这种