论文部分内容阅读
Web个人信息指存在于网页中与一个人相关的信息,依照存在方式不同,可分为以结构化形式表达的个人直观属性和隐藏在非结构化文本中的非直观信息。随着网络技术成熟和网络应用深入发展,互联网网站数量呈爆炸式增长,其上个人信息资源数量也很惊人,内容丰富,涵盖了人们生活和工作的各个领域,根据Web查询统计,约11%-17%的查询包括人名,约4%的Web查询只包括人名,说明了从互联网上获取与个人相关信息已成为最常见的用户行为之一。基于信息检索技术的搜索引擎为用户提供查找与个人相关网页的途径,能够将与需求相匹配的网页链接返回给用户,并且可以按照一定排名规则对网页进行排序,但是,对于网页中需要文本深入分析的丰富的个人信息获取却无能为力。为了突破搜索引擎在互联网个人信息处理中的限制,实现对蕴含其中个人信息的获取利用,业界和学术界开始从个人信息组织角度对互联网个人信息进行研究。互联网是分布式的、动态的、异构的,包含个人信息网站的内容并不一致,信息表达方式也不统一,对个人信息组织并非易事。虽然,国内外学者在信息组织角度对互联网上个人信息进行的研究取得了一定进展,仍存在许多问题有待解决。(1)个人页面的正确识别。互联网中与个人信息相关网页的相同人名对应不同的人物个体,这些网页中的个人信息属于不同的同名人。面对同名人网页混杂一起的现象,要对一个人的信息进行集成,首先必须将同名人网页按照不同的人物个体区分,为进一步的信息抽取和分析做准备。(2)人物实体模式的不完备。来自不同数据源的数据在展现内容和数据模式等方面存在差异,相同的人物属性,在不同的网站表现形式是不一致的。信息的不一致给人们应用这些异构信息带来不便。为了有助于对各数据源的有效应用,可以依据数据源间不同的表现形式和表现内容,为人物实体建立融合在一起的全面的数据模式,为进一步从新的数据源对人物实体识别、抽取和集成提供指导。(3)人物实体活动的提取。人物实体活动是存在于网页无结构文本中的一种信息,与网页中结构化信息提取相比,无结构化文本中信息提取更加困难,而用户对其关注度远远高于对结构化信息关注度,因为这些信息更能够刻画一个人的生活状态、工作状态和态度立场等。然而,这些信息都存在于无结构和半结构化的文本中,由于先天的自然语言理解困难性,要对这些信息进行梳理,实现对这些信息的有效抽取是前提。Web信息集成是面向互联网环境,在信息集成技术基础上发展起来的研究,目的是对不同网站间异构数据进行分析、筛选和合并,为用户提供统一知识视图和访问方式,其实质就是对互联网信息的一种重新理解和组织。本文利用Web信息集成相关技术对互联网中庞大且凌乱的个人信息重新组织进行深入研究。本文研究的目的是获取互联网这个公开信息源上丰富与个人相关的网页,抽取出网页中个人的直观属性和非直观信息,建立个人信息的全貌。研究内容包括三方面,第一个内容是Web人名消歧,这是个人信息重组的基础,只有利用网页中人物个体的属性特征,将包含同名人信息的网页分类,才能降低同名不同人的人物个体网页噪音,从中选择出与信息重组特定人物个体最相关网页。第二个内容是人物实体的全局模式构建。Web数据源的数据模式和数据内容各不相同,人物实体全局模式的构建可以为人物实体新数据源发现、新数据源模式构建和数据提取提供指导,可以为人物实体统一视图的建立提供依据。第三个内容是人物实体活动抽取,将网页中个人活动组织起来,能清晰看到其生活和工作的轨迹。本文贡献主要包括以下三个方面:(1)采用了人物特征属性和层次凝聚聚类方法解决Web网页人名消歧问题。提出的基于搜索引擎的通用人名消歧框架,能够避免需要巨大精力和巨大投资的新的个人信息网页搜索工具开发,可以充分利用搜索引擎的优势,在系统消耗很低的情况下,得到高性能的人物实体数据集。多角度人物实体特征属性选取,突破了单一人物实体特征属性选择,也不同于以文本特性代替人物实体特征的方法,基于此的网页相似度计算比基于TF/IDF和向量空间模型的计算方法更加简便合理。(2)采用渐进式方法进行人物实体全局模式的动态构建。提出的基于人物实体结构化信息网页进行人物实体全局模式构建的方法,即缩小了构建对象范围,又能保证足够实体实例用于构建,给出的人物实体结构化信息网页判定方法抓住了人物实体结构化信息的几个关键特性,既能保证人物实体结构化网页选取的准确性,又能提高选取的效率。本文提出的人物实体全局模式动态构建,突破了事先对人物实体模式进行定义,只能抽取固定属性的限制,又避免了一次性构建人物实体全局模式的弊端,能够及时将新的数据模式融合到全局模式中,适应数据源的动态性,从而保证全局模式的完整性。(3)采用条件随机场模型进行人物实体活动的抽取。由于自然语言处理的复杂性,人物实体非直观信息的抽取一直是研究的难点,而人物实体活动本身又是传统信息抽取很少考虑的一种信息类型。本文对人物实体活动的研究是对Web实体信息抽取研究的完善,给出的人物实体活动形式化定义不仅包括人物实体作为主体的活动,而且包括人物实体作为客体的活动,对人物实体生活和工作轨迹的把握更加全面。在利用条件随机场进行活动要素标注过程中,除了常用的词性特征,还增加了一个词在句子中的位置特征和命名实体特征,实验证明这两个特征的增加提高了实体活动抽取的准确度。