汉语组块的定义和获取

来源 :全国第七届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:a275505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组块是介于词语和句子之间的一种语言结构,目前还没有明确的定义.本文总结了当前对组块的各种研究,对汉语组块进行了定义.同时组块的获取和收集也是一项迫切的任务,由于不易直接获取到具有组块标注的语料,我们从现有树库中抽取组块.本文根据汉语特点提出了12种汉语组块类型,并根据这些组块类型和宾州大学中文树库短语类型的对应关系进行转化获得组块库.
其他文献
识别命名实体(本文指专有名称、未登录普通词和篇章术语)是中文处理的一个重要问题.本文采用篇章内统计的方法,计算文本文档初步切分后任意两个邻接项(包括词和落单字)的互信
目的探讨互动护理模式在肠镜检查患者中的应用价值。方法选取我院非无痛肠镜检查患者148例,分别采用互动护理模式及传统护理模式,比较2组患者接受检查前的心理状态、体位摆放时
目的建立大鼠腹主动脉瘤血管移植动物模型。方法用SD大鼠,经麻醉后取胸腹联合切口切开暴露胸主动脉。取2cm长度胸主动脉,将其一端结扎,另一端端侧缝合于另外一只同系基因型大鼠
目的探讨食管静脉曲张的硬化情况与结扎治疗效果。方法160例食管静脉曲张硬化出血患者根据治疗方法的不同分为治疗组与对照组,各80例,对照组采用栓塞治疗,2个月后再行内镜结扎治
机构名识别是未登录词识别的一个难点.本文探讨了在机构名识别中以机构名通名为激活信息,匹配通名对应的机构名模式来进行机构名识别的方法.提出了五个大类的机构名构成模式,
人名自动识别是语料库深加工及机器翻译等蒙古文信息处理工作中的重要环节之一.我们针对蒙古文人名词语的不同构成特点采取直接标注、词典、匹配以及基于上下文的算法等方式
本文提出一种自适应的概率语言模型的训练方法,采用EM迭代优化算法在未切分的语料库上训练概率语言模型的参数.本文用该算法训练了中文的基于词的N-gram模型,并应用于概率分
在现阶段医学学科的教育教学体系当中,基础医学与临床医学之间的连接,需要通过病理生理学理论教学的方式实现。病理生理学理论教学的最显著特点在于:教学理论性强,教学内容繁杂,教
机构名识别在信息抽取中是一个重要研究内容.本文提出了一种统计和规则相结合的机构名识别算法,其中采用Co-Training机器学习的方法构造机构名识别知识库.实验系统封闭测试准
本文概要介绍了近年来我们在汉语部分分析方面的研究工作,包括设计部分分析和标注体系、构建大规模的部分信息标注语料库、探索不同层次的部分分析方法等,并提出了一些应用设