基于双语平行语料的分层次命名实体抽取

来源 :第四届全国学生计算语言学研讨会(SWCL-2008) | 被引量 : 0次 | 上传用户:l7821744
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文设计实现了一种基于多模型分层次的从双语语料库中抽取命名实体对的方法。首先对命名实体识别,然后分层次抽取命名实体。第一层通过双语识别信息和对齐技术,利用意译模型和音译模型打分得到短命名实体;第二层用规则的方法合并短命名实体生成长命名实体对。实验显示,双语识别信息和对齐技术对于短命名实体的抽取效果很好,针对长命名实体抽取问题的合并规则也能在一定程度上抽取出长命名实体。
其他文献
本文对河北唐县方言词尾“儿”的读音进行了分析。文章介绍了唐县方言的韵母系统,阐述了唐县方言词尾“儿”的读音特点。
会议
本文对江永女书进行了研究。文章围绕江永女书的来源、女书作品的文化类型、女书在汉字发展环节上的位置、从江永土话与女书的关系等进行了论述。
会议
我们选取了两个有关粤语框式虚词结构的问题作为本文讨论的重点:(1)前后置虚词在句法上的局部特点:本文认为粤语虚词能不能形成一个“框”,除了语义上的考虑外,还要考虑
会议
HSK动态作文语料库是一个大规模的汉语中介语语料库。人工对其中各类偏误进行了标注。本文针对人工标注的缺陷,提出了偏误自动标注的方法。基于编辑距离算法,以汉语
会议
目前,意见挖掘已经成为文本挖掘的—个热门研究方向,其主要研究对象是意见型主观性语句。本文首先介绍了汉语意见型主观性语句的定义和特点,并依据三种分类标准,即
会议
本文依据语言递归性本质特征,提出“地名成分”的概念,并以其为基本单位,对中文地名内部结构进行了定性和定量分析。“地名成分”为确定性的地名结构分析单位,由区
会议
本文利用RST修辞结构理论研究了突发事件文本的结构关系,重点分析了突发事件类文本中五类主要的结构关系,同时对文本的信息构成作了探讨,分析了客观信息,主观信息以
会议
新词语的出现引起众多学者的关注,出现了各种研究新词语的论文以及两部专著。本文对搜集到的新词语论文进行细致的分析,对其总体情况进行概括并总结出目前新词语研
会议
实体关系抽取是信息抽取中的一个关键任务,其目的是找出文本中实体对之间的语义关系。本文阐述了一种改进的基于树核函数的实体关系抽取方法,在路径包含树的基础上,
会议
汉语机构名识别是现代汉语未登录词识别中最难实现的一项,至今未能找到十分令人满意的解决方法。本文提出了一种基于构成模式的汉语机构名识别方法,其基本思想是根据
会议