基于统计机器学习的两阶段中文命名实体识别研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:nj_lcj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为信息抽取的基本任务,也是重要任务之一,命名实体识别已经成为自然语言处理的研究热点之一。从1998年开始,由美国国防高级研究计划委员会资助的消息理解会议就把命名实体识别当作它的子任务之一,并明确定义命名实体包括1.实体(组织名、人名、地名);2.时间表达式(日期、时间);3.数字表达式(货币值、百分数)。之后的自动内容抽取评测更加拓宽的命名实体识别的范围,把实体的提及、实体之间的关系都列为考察内容。从2003年开始,计算语言协会下属的中文特别兴趣小组发起了中文分词和命名实体识别竞赛中,到2007年已经举办四次。前两次只在中文分词任务上展开评测,后两次加入了中文命名实体识别评测。SIGHAN定义中文命名实体包括人名、地名、机构名和地理信息名等四种,命名实体识别就是在未分词的语料中识别这四种实体的过程。本文以SIGHAN竞赛的命名实体定义和评测标准为依据,提出了一种基于统计机器学习的两阶段命名实体识别方法,把命名实体识别分为边界检测和类型识别两个阶段,针对两个阶段的特点选取不同的机器学习方法,在几乎不损失精度的情况下大大减小了训练所需的时间复杂度和空间复杂度,这对训练代价特别大的条件随机场模型有着尤其重要的意义。两阶段中文命名实体识别的过程是:首先进行实体边界检测,边界检测可以转化为一个序列标注问题,因此选用可以融入丰富特征并无标记偏置问题的条件随机场模型;然后使用最大熵模型进行实体类型识别,因为它符合满足已知约束情况下不对未知事物做出任何推断的哲学原理,并且在许多自然语言处理任务上有出色表现。在进行边界检测时:第一,对比了常见的六种标记集,实验结果显示了同时强调实体开头和结尾的BIOE标记集有最好的性能;第二,对比了不同特征模板窗口大小对边界检测效果的影响,实验证明窗口数过大或过小都不好,过小的窗口可能损失上下文信息,而过大的窗口又会造成特征量过大,使训练代价提高,且会造成数据稀疏。在进行类型识别时将所用特征归为两类,与实体本身相关的本地特征和与上下文相关的全局特征。本地特征只包含实体本身用字信息,而全局特征包含实体所处上下文用字的信息。把特征分成这两类的目的是考察实体本身和上下文用字对实体类型的区分性。实验结果发现,仅仅使用本地特征就可以取得很好的效果。分析原因发现同一实体在不同上下文中呈现不同类别的混淆现象很少,因此只使用实体本身的信息就可以很好的区别不同的实体。接着把一阶段与两阶段实体识别进行了对比,发现两阶段与一阶段的识别准确率(F值)非常接近,略低于SIGHAN的最好结果。但两阶段的时间复杂度和空间复杂度只是一阶段的20%左右。本文的实验中,一阶段中文命名实体的时间消耗在20个小时以上,特征数量将近1亿,内存消耗12G;而采用两阶段方法后特征数量降为1千6百万,训练耗时3.5小时,内存消耗3.2G。最后给出两阶段优越性的理论依据,指出了有待深入研究的问题。
其他文献
在当前的临床实践中,数字血管减影技术是一种有效的血管可视化工具。特别是近年来,基于平板成像器件的数字血管减影技术逐渐取代了传统的胶片和影像增强器型减影技术,成为医
本文主要研究基于近红外增强型CCD的测温摄像机的软硬件设计和实现。在水泥、玻璃、电力等行业炉窑是最主要的生产设备,炉膛的温度的控制对产品质量、燃料消耗和温室气体排放
信息技术、多媒体技术和网络技术的发展,使人们进入了数字化时代,但数字技术的发展和数字信息的普及也带来了许多新问题,如何保护网络数据的安全传输已经成为当前信息安全问
中国移动通信迅速发展,移动用户对通信业务的种类和质量的要求不断提高,我国从2005年开始陆续建设3G移动通信网络。国外的WCDMA和CDMA2000都有成熟的用于实验、建网和测试的测
随着网络的逐渐普及以及多媒体技术的发展,在科学技术、生产实际和日常生活中不断地产生大量的图像数据。如何从海量的图像信息中快速、准确地检索出用户需要的信息,以便于图
近十几年来,脑-机接口(BCI)技术的研究在国际上引起了广泛的关注并得到了快速的发展,它直接为大脑与外界环境提供了一种新的信息交流和控制通路。运动想象脑电是它的一个重要
图像分割的主要任务是提取图像中的感兴趣目标,将图像分为前景和背景。彩色图像分割在彩色图像处理中占据了重要位置,是模式识别和彩色图像分析的先决条件。众多学者在研究彩
近年来,随着数字技术的迅猛发展,数字图像、音频、视频等多媒体产品得到日益广泛的普及和应用,显著地提高了信息传播的效率和准确度。但随之而来的副作用是,有恶意的个人和团
局域网(LAN)是随着微机的大量普及和其应用领域的不断扩大而产生、发展起来的一种计算机网络。环形网络是局域网的一种常用的拓扑结构。环形结构由网络中若干节点通过点到点
随着信息化促进工业化水平的提高以及宽带无线网络技术的蓬勃发展,3G通信网络已经在网络承载能力、带宽、用户体验、QoS、安全性等方面不同程度上满足企业移动应用的需求。煤