基于双语平行语料的分层次命名实体抽取

来源 :第四届全国学生计算语言学研讨会(SWCL-2008) | 被引量 : 0次 | 上传用户：l7821744

【摘要】

：

本文设计实现了一种基于多模型分层次的从双语语料库中抽取命名实体对的方法。首先对命名实体识别，然后分层次抽取命名实体。第一层通过双语识别信息和对齐技术,利用

【作者】

：

庞薇[1] 徐波[2]

【机构】

：

中科院自动化所数字内容技术研究中心,北京100080中科院自动化所数字内容技术研究中心,北京100080中科院自动化所模式识别国家重点实验室,北京100080

【出处】

：

第四届全国学生计算语言学研讨会(SWCL-2008)

【发表日期】

：

2008年7期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文设计实现了一种基于多模型分层次的从双语语料库中抽取命名实体对的方法。首先对命名实体识别，然后分层次抽取命名实体。第一层通过双语识别信息和对齐技术,利用意译模型和音译模型打分得到短命名实体；第二层用规则的方法合并短命名实体生成长命名实体对。实验显示,双语识别信息和对齐技术对于短命名实体的抽取效果很好,针对长命名实体抽取问题的合并规则也能在一定程度上抽取出长命名实体。

其他文献

河北唐县方言词尾儿的读音

本文对河北唐县方言词尾“儿”的读音进行了分析。文章介绍了唐县方言的韵母系统，阐述了唐县方言词尾“儿”的读音特点。

会议

论江永女书的来源

本文对江永女书进行了研究。文章围绕江永女书的来源、女书作品的文化类型、女书在汉字发展环节上的位置、从江永土话与女书的关系等进行了论述。

会议

粤语框式虚词的局部性和多重性

我们选取了两个有关粤语框式虚词结构的问题作为本文讨论的重点：(1)前后置虚词在句法上的局部特点：本文认为粤语虚词能不能形成一个“框”，除了语义上的考虑外，还要考虑

会议

HSK动态作文语料库偏误标注方法研究

HSK动态作文语料库是一个大规模的汉语中介语语料库。人工对其中各类偏误进行了标注。本文针对人工标注的缺陷,提出了偏误自动标注的方法。基于编辑距离算法,以汉语