论文部分内容阅读
在自然语言处理及信息处理领域,例如信息检索、文本分类等,如何正确地识别出命名实体,一直是一项重要而又困难的研究课题。已有的研究多集中于纯文本文件,利用基于统计和基于规则的方法,根据上下文信息来抽取命名实体。但随着数字化技术以及网络的迅速发展,大量的Web数据在Internet上不断涌现。和传统的纯文本相比,HTML 页面多为半结构化的文本,语言比较简练,缺乏丰富的上下文信息,因此已有的对命名实体识别的研究不适用于这个领域,如何在Web环境下抽取命名实体成为现实中亟待解决的问题。搜索引擎的出现部分地解决了这个问题。但是搜索引擎主要提供基于关键词的搜索方式,并不提供精确的查找方式,因此我们就需要有一种新的从Web中抽取命名实体的方法。
本文提出了一种基于条件随机域(CRF模型)的从个人主页中抽取地址信息的方法。CRF 模型是一种新的概率模型,它具有表达元素长距离依赖性和重叠性特征的能力,能方便地在模型中包含领域知识,且较好地解决了标注偏置问题等优点,因此该模型适用于解决命名实体的识别任务。本文面向实际应用,对CRF模型做了如下改进:
(1) 采用了特殊的选取观察值的方法;
(2) 对地址信息出现的位置进行考虑;
(3) 采用了多层的CRF结构,在低层的CRF中考虑粗粒度的姓名、地址等状态,在高层的CRF中考虑细粒度的街道、城市、国家等状态,从而更精确地抽取地址信息。
本文的方法已在原型系统中得到实现。通过web语料的测试表明,改进的CRF模型有着较好的性能;可以使系统的查准率达到84.41%,召回率达到85.17%,和单层CRF模型相比,查准率和召回率都有所提高。