论文部分内容阅读
作为信息抽取的基本任务,也是重要任务之一,命名实体识别已经成为自然语言处理的研究热点之一。从1998年开始,由美国国防高级研究计划委员会资助的消息理解会议就把命名实体识别当作它的子任务之一,并明确定义命名实体包括1.实体(组织名、人名、地名);2.时间表达式(日期、时间);3.数字表达式(货币值、百分数)。之后的自动内容抽取评测更加拓宽的命名实体识别的范围,把实体的提及、实体之间的关系都列为考察内容。从2003年开始,计算语言协会下属的中文特别兴趣小组发起了中文分词和命名实体识别竞赛中,到2007年已经举办四次。前两次只在中文分词任务上展开评测,后两次加入了中文命名实体识别评测。SIGHAN定义中文命名实体包括人名、地名、机构名和地理信息名等四种,命名实体识别就是在未分词的语料中识别这四种实体的过程。本文以SIGHAN竞赛的命名实体定义和评测标准为依据,提出了一种基于统计机器学习的两阶段命名实体识别方法,把命名实体识别分为边界检测和类型识别两个阶段,针对两个阶段的特点选取不同的机器学习方法,在几乎不损失精度的情况下大大减小了训练所需的时间复杂度和空间复杂度,这对训练代价特别大的条件随机场模型有着尤其重要的意义。两阶段中文命名实体识别的过程是:首先进行实体边界检测,边界检测可以转化为一个序列标注问题,因此选用可以融入丰富特征并无标记偏置问题的条件随机场模型;然后使用最大熵模型进行实体类型识别,因为它符合满足已知约束情况下不对未知事物做出任何推断的哲学原理,并且在许多自然语言处理任务上有出色表现。在进行边界检测时:第一,对比了常见的六种标记集,实验结果显示了同时强调实体开头和结尾的BIOE标记集有最好的性能;第二,对比了不同特征模板窗口大小对边界检测效果的影响,实验证明窗口数过大或过小都不好,过小的窗口可能损失上下文信息,而过大的窗口又会造成特征量过大,使训练代价提高,且会造成数据稀疏。在进行类型识别时将所用特征归为两类,与实体本身相关的本地特征和与上下文相关的全局特征。本地特征只包含实体本身用字信息,而全局特征包含实体所处上下文用字的信息。把特征分成这两类的目的是考察实体本身和上下文用字对实体类型的区分性。实验结果发现,仅仅使用本地特征就可以取得很好的效果。分析原因发现同一实体在不同上下文中呈现不同类别的混淆现象很少,因此只使用实体本身的信息就可以很好的区别不同的实体。接着把一阶段与两阶段实体识别进行了对比,发现两阶段与一阶段的识别准确率(F值)非常接近,略低于SIGHAN的最好结果。但两阶段的时间复杂度和空间复杂度只是一阶段的20%左右。本文的实验中,一阶段中文命名实体的时间消耗在20个小时以上,特征数量将近1亿,内存消耗12G;而采用两阶段方法后特征数量降为1千6百万,训练耗时3.5小时,内存消耗3.2G。最后给出两阶段优越性的理论依据,指出了有待深入研究的问题。