基于条件随机域的地址抽取方法及实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:jianjian19527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理及信息处理领域,例如信息检索、文本分类等,如何正确地识别出命名实体,一直是一项重要而又困难的研究课题。已有的研究多集中于纯文本文件,利用基于统计和基于规则的方法,根据上下文信息来抽取命名实体。但随着数字化技术以及网络的迅速发展,大量的Web数据在Internet上不断涌现。和传统的纯文本相比,HTML 页面多为半结构化的文本,语言比较简练,缺乏丰富的上下文信息,因此已有的对命名实体识别的研究不适用于这个领域,如何在Web环境下抽取命名实体成为现实中亟待解决的问题。搜索引擎的出现部分地解决了这个问题。但是搜索引擎主要提供基于关键词的搜索方式,并不提供精确的查找方式,因此我们就需要有一种新的从Web中抽取命名实体的方法。 本文提出了一种基于条件随机域(CRF模型)的从个人主页中抽取地址信息的方法。CRF 模型是一种新的概率模型,它具有表达元素长距离依赖性和重叠性特征的能力,能方便地在模型中包含领域知识,且较好地解决了标注偏置问题等优点,因此该模型适用于解决命名实体的识别任务。本文面向实际应用,对CRF模型做了如下改进: (1) 采用了特殊的选取观察值的方法; (2) 对地址信息出现的位置进行考虑; (3) 采用了多层的CRF结构,在低层的CRF中考虑粗粒度的姓名、地址等状态,在高层的CRF中考虑细粒度的街道、城市、国家等状态,从而更精确地抽取地址信息。 本文的方法已在原型系统中得到实现。通过web语料的测试表明,改进的CRF模型有着较好的性能;可以使系统的查准率达到84.41%,召回率达到85.17%,和单层CRF模型相比,查准率和召回率都有所提高。
其他文献
新世纪信息技术和软件产业的一个显著的特征是计算机在网络环境中工作,依靠底层的通信链路交换信息.这就自然产生了越来越多的网络优化问题.这些问题通常是大规模的,需要快速求
学位
互联网在当今社会已经是我们生活的一部分,有效的数据交换是互联网发挥其能力的基础需求。为了应对互联网中数据的愈发明显的异构特性,国际万维网组织(World Wide Web Consor
基因芯片是生物学和生物医学中的一项革命,随着基因芯片技术的发展,产生了海量的基因表达的数据,而如何从海量基因表达数据中挖掘有意义的信息始终是一项巨大挑战.本文利用生
随着移动智能设备和嵌入式控制器的广泛应用与普及,开发和设计上下文感知软件变成了日益迫切的需求。面向上下文编程(COP)方法在此背景下被提出,随后支持此类编程方法的编程
我国目前约有1000万名中小学教师,对他们实行有效的继续教育和岗位培训是关系到中国教育事业能否跟上时代潮流、保持长久活力的大事。用现代信息技术开展中小学教师远程教育,为
以视频、音频为表现特征的大文件共享已经成为了互联网上的又一个热点。由北京大学网络实验室开发实现的“大学课程在线”及其第二版“大学堂”就是这样一个被中国近30所高校
人口数据的管理是国家人口管理部门的重要职能,是政府实施社会管理和公共服务的重要手段,也是提高政府部门工作水平,加强宏观管理的重要措施之一。   本文首先介绍了分布式体
学位
生物免疫系统是一个由细胞和各种组织组成的具有分布性、自适应性、自组织性、记忆性、多样性、鲁棒性的高度复杂的系统。近年来,人们发现由于计算机的运行机理和生物体有着天
随着网络中有限的资源被越来越多的用户所共享使用,网络拥塞问题变得更加严重。因此,拥塞控制对网络的稳定运行至关重要,然而,即使所有的链路和数据流都采用了拥塞控制机制,仍然可
学位
森林景观可视化技术在景观设计、林区规划以及其它森林经营活动中有广泛的应用。在保证场景真实感前提下,为了提高森林场景的交互性和实时性,要尽可能地减少绘制的工作量。遮挡