Web个人信息集成问题研究

被引量 : 0次 | 上传用户:txl8909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web个人信息指存在于网页中与一个人相关的信息,依照存在方式不同,可分为以结构化形式表达的个人直观属性和隐藏在非结构化文本中的非直观信息。随着网络技术成熟和网络应用深入发展,互联网网站数量呈爆炸式增长,其上个人信息资源数量也很惊人,内容丰富,涵盖了人们生活和工作的各个领域,根据Web查询统计,约11%-17%的查询包括人名,约4%的Web查询只包括人名,说明了从互联网上获取与个人相关信息已成为最常见的用户行为之一。基于信息检索技术的搜索引擎为用户提供查找与个人相关网页的途径,能够将与需求相匹配的网页链接返回给用户,并且可以按照一定排名规则对网页进行排序,但是,对于网页中需要文本深入分析的丰富的个人信息获取却无能为力。为了突破搜索引擎在互联网个人信息处理中的限制,实现对蕴含其中个人信息的获取利用,业界和学术界开始从个人信息组织角度对互联网个人信息进行研究。互联网是分布式的、动态的、异构的,包含个人信息网站的内容并不一致,信息表达方式也不统一,对个人信息组织并非易事。虽然,国内外学者在信息组织角度对互联网上个人信息进行的研究取得了一定进展,仍存在许多问题有待解决。(1)个人页面的正确识别。互联网中与个人信息相关网页的相同人名对应不同的人物个体,这些网页中的个人信息属于不同的同名人。面对同名人网页混杂一起的现象,要对一个人的信息进行集成,首先必须将同名人网页按照不同的人物个体区分,为进一步的信息抽取和分析做准备。(2)人物实体模式的不完备。来自不同数据源的数据在展现内容和数据模式等方面存在差异,相同的人物属性,在不同的网站表现形式是不一致的。信息的不一致给人们应用这些异构信息带来不便。为了有助于对各数据源的有效应用,可以依据数据源间不同的表现形式和表现内容,为人物实体建立融合在一起的全面的数据模式,为进一步从新的数据源对人物实体识别、抽取和集成提供指导。(3)人物实体活动的提取。人物实体活动是存在于网页无结构文本中的一种信息,与网页中结构化信息提取相比,无结构化文本中信息提取更加困难,而用户对其关注度远远高于对结构化信息关注度,因为这些信息更能够刻画一个人的生活状态、工作状态和态度立场等。然而,这些信息都存在于无结构和半结构化的文本中,由于先天的自然语言理解困难性,要对这些信息进行梳理,实现对这些信息的有效抽取是前提。Web信息集成是面向互联网环境,在信息集成技术基础上发展起来的研究,目的是对不同网站间异构数据进行分析、筛选和合并,为用户提供统一知识视图和访问方式,其实质就是对互联网信息的一种重新理解和组织。本文利用Web信息集成相关技术对互联网中庞大且凌乱的个人信息重新组织进行深入研究。本文研究的目的是获取互联网这个公开信息源上丰富与个人相关的网页,抽取出网页中个人的直观属性和非直观信息,建立个人信息的全貌。研究内容包括三方面,第一个内容是Web人名消歧,这是个人信息重组的基础,只有利用网页中人物个体的属性特征,将包含同名人信息的网页分类,才能降低同名不同人的人物个体网页噪音,从中选择出与信息重组特定人物个体最相关网页。第二个内容是人物实体的全局模式构建。Web数据源的数据模式和数据内容各不相同,人物实体全局模式的构建可以为人物实体新数据源发现、新数据源模式构建和数据提取提供指导,可以为人物实体统一视图的建立提供依据。第三个内容是人物实体活动抽取,将网页中个人活动组织起来,能清晰看到其生活和工作的轨迹。本文贡献主要包括以下三个方面:(1)采用了人物特征属性和层次凝聚聚类方法解决Web网页人名消歧问题。提出的基于搜索引擎的通用人名消歧框架,能够避免需要巨大精力和巨大投资的新的个人信息网页搜索工具开发,可以充分利用搜索引擎的优势,在系统消耗很低的情况下,得到高性能的人物实体数据集。多角度人物实体特征属性选取,突破了单一人物实体特征属性选择,也不同于以文本特性代替人物实体特征的方法,基于此的网页相似度计算比基于TF/IDF和向量空间模型的计算方法更加简便合理。(2)采用渐进式方法进行人物实体全局模式的动态构建。提出的基于人物实体结构化信息网页进行人物实体全局模式构建的方法,即缩小了构建对象范围,又能保证足够实体实例用于构建,给出的人物实体结构化信息网页判定方法抓住了人物实体结构化信息的几个关键特性,既能保证人物实体结构化网页选取的准确性,又能提高选取的效率。本文提出的人物实体全局模式动态构建,突破了事先对人物实体模式进行定义,只能抽取固定属性的限制,又避免了一次性构建人物实体全局模式的弊端,能够及时将新的数据模式融合到全局模式中,适应数据源的动态性,从而保证全局模式的完整性。(3)采用条件随机场模型进行人物实体活动的抽取。由于自然语言处理的复杂性,人物实体非直观信息的抽取一直是研究的难点,而人物实体活动本身又是传统信息抽取很少考虑的一种信息类型。本文对人物实体活动的研究是对Web实体信息抽取研究的完善,给出的人物实体活动形式化定义不仅包括人物实体作为主体的活动,而且包括人物实体作为客体的活动,对人物实体生活和工作轨迹的把握更加全面。在利用条件随机场进行活动要素标注过程中,除了常用的词性特征,还增加了一个词在句子中的位置特征和命名实体特征,实验证明这两个特征的增加提高了实体活动抽取的准确度。
其他文献
本文借助金融领域相对成熟的风险度量方法研究供应链管理中供应商选择的风险问题,为企业科学决策提供了一种先进、实用的理论支持。对于已有完善管理体系的大型造船企业来说,
报道 2例血栓性血小板减少性紫癜的神经精神表现及其中 1例的脑病理结果 ,分析其临床与病理联系。2例病人均为青年女性 ,有血栓性血小板减少性紫癜的典型临床表现和实验室证
建设智能电网正在成为各国电力行业的发展趋势。智能电网并不是一种时尚,它可以给电力公用事业带来实实在在的好处,这正是其受到普遍重视的主要原因。当前国家电网公司正致力
目的:探讨阻塞性睡眠呼吸暂停低通气综合征(OSAS)与心律失常的关系。方法:将240例睡眠打鼾患者经多导睡眠呼吸监测仪(PSG)进行夜间睡眠监测并同步监测24小时动态心电图,根据PSG监测
顺铂被广泛用于多种类型的实体肿瘤的临床治疗.DNA是顺铂的主要靶点,顺铂结合会导致DNA损伤并诱发细胞凋亡.然而,顺铂化疗常常受到内在的和获得性的耐药性的限制.在过去30多
随着社会的全面发展,德育教育的重要性越来越明显,对社会各方面的发展都具有深远的影响。本文在研究中学德育教育现状的基础上,针对具体的问题,提出了相应的发展对策,从而促
在世界能源短缺,各国都在重视节能减排、环境保护的背景下,我国也加强了对高耗能各种设备的节能监管,并颁发多部法规标准,为节能监管工作的全面开展提供了法律依据,打下了良
文章着眼国家精准扶贫精准脱贫惠民政策的落实,基于甘肃省甘南藏族自治州和天祝藏族自治县部分乡镇的田野调查,提出了几点相关认识。
<正>水闸有节制闸、船闸等许多类型,除了农田水利工程中的一些小型水闸外,一般都设有公路桥。水闸上的公路桥既是水闸的组成部分,又是公路的跨河构筑物。分析水闸工程中桥梁
期刊
近几十年来,企业越来越多地认识到建立和发展与顾客之间的良好的持续关系的重要意义,顾客行为意愿作为预测顾客再次购买行为的最准确的衡量指标和依据,其影响因素的多元化和