Web中结构化人物属性提取与融合方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:xqxcb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来人物知识库和用户画像在智能搜索、智能问答、推荐系统等场景得到了广泛的应用,而人物属性信息是构建人物知识库和用户画像的核心内容。随着互联网的普及及其规模的增加,其承载的信息量的呈现爆炸式增长,使得从互联网中遴选获取人物属性数据变得越发困难。如何高效准确地在网络中获取人物特征和属性,成为信息挖掘领域的一个热点研究内容。结构化人物数据具有形式统一、内容可靠的特点,使得其成为最优质的数据源。由于网页的异质性和多源性,如何准确高效地从网页中提取结构化人物属性并进行分析融合成为一个必要的研究课题。本文在对现有的相关研究进行深入分析的基础上,提出了一种无监督的动态网页结构化属性提取框架和一种基于二部图和随机游走的无监督实体消解算法,从而实现了人物属性集构建中提取和融合这两个关键步骤,具体研究内容如下:(1)针对难以使用通用方法提取异质网页结构化信息的问题,本文设计了一种无监督的动态网页结构化属性提取框架,该框架分为网页处理、属性名学习、属性提取三个模块。设计了一种结构化区域发现算法来定位网页中的结构化信息,并且在提取中根据属性的语义相似度、出现频率和前后文命名实体识别信息不断学习和更新属性的置信度。同时依据若干DOM树模型和置信属性名来匹配生成属性对。实验表明该框架在SWDE数据集和人物数据集上都取得了良好的效果。并且该框架的没有属性和垂直领域限制,无需标记数据,具有良好的拓展性。(2)为了更加准确高效地进行人物属性融合,本文提出了一种基于二部图和随机游走的无监督实体消解算法。该算法基于图理论进行实体消解,无需标记数据。算法分为二部图迭代和随机游走两部分,首先根据记录的共有术语和差异术语构建有向二部图并迭代计算记录的相似度,接下来依据此相似度构建记录图,基于随机游走算法生成记录到达概率,从而解决阈值界定问题。上述两部分还会进行交替迭代,并在每次迭代不断调节差异术语的影响因子和游走步数,从而使算法逐步发现更多匹配对。实验表明该算法在标准ER数据集和人物数据集上超越了最新的同类方法。
其他文献
近年来,随着物联网技术的快速发展和人们对广域互联需求的增加,低功耗广域网(Low-Power Wide-Area Network,LPWAN)技术得到了广泛关注。其中LoRa技术由于具有突出的抗干扰能力、通信灵敏度、应用灵活性等优点而被广泛应用。LoRa本质是物理层技术,其最常用组网标准是基于纯Aloha机制的LoRa WAN,该技术存在冲突率高、信道利用率低等问题,导致物联网容量受限。针对这些问
热声成像(Thermoacoustic Tomography,TAT)是一种新型的非侵入式成像技术,与传统的成像手段对比,它具有高分辨率、高对比度、低成本、无电离辐射的优点。热声成像的物理机理可以概括为:生物组织在短脉冲的激励下吸收电磁能量并产生热量,导致自身热膨胀并引发机械振动产生超声波。超声波被在布置在生物组织附近的超声探头所接收,经过放大和其他后处理步骤之后被用于图像的重构。在不同频率激励下
随着三维信息感知和获取技术的飞速发展,高分辨率和高保真度的三维点云(Point Cloud)在自动驾驶、自主导航、沉浸式媒体、虚拟现实等场景中得到广泛的应用。三维点云是由一系列大量的位置信息和与之相对应的属性信息(颜色、反射率、法向量等)构成,能灵活地表征三维物体或场景的空间结构和表面属性。然而,海量的点云数据给有限的带宽和存储空间带来了极大的压力。因此,如何实现高效的点云数据压缩是一个急需解决的
现代社会里通信设备泛在互联趋势愈加明显,通信设备的电子指纹识别技术,与人类指纹识别技术类似,均属于时代和科技发展的必然需要,无论军事还是民用都有着极其重要的意义。近几年来,基于人工智能的电子指纹识别技术得到飞速发展,但是针对于单一设备的识别方法不能被直接应用到实际电磁环境中。如何能在多设备混杂交织的工作环境中准确的识别出单个通信个体,是一个目前亟待解决的问题。本文主要是针对多个设备共同工作的场景下
光学相干层析成像(Optical Coherence Tomography,OCT)技术是一种生物医学断层成像技术,其轴向分辨率可以达到几微米,具有非接触、无损伤、灵敏度高和成像速度快等优点,在眼科成像和工业测量等领域发挥着重要作用。谱域OCT(Spectral domain OCT,SD-OCT)是第二代OCT技术,本文主要针对850nm波段SD-OCT系统的优化以及基于该系统的三维表面形貌测量
固体型双氧水非硅稳定剂EMP系多种有机和无机络合物以及镁盐的复配物。作者对非硅稳定剂EMP进行了不同用量的应用试验,并与硅酸钠以及其他非硅稳定剂AR702、106作了对比,对EMP的碱度适应性能也作了试验。文章还介绍了大样试验情况,并对EMP与其他稳定剂的经济效益作了对比分析,其成本高于硅酸钠,但低于其他非硅稳定剂。
期刊
“固体双氧水”是尿素过氧化氢的俗称[CO(NH2)2H2O2],白色固体。含过氧化氢30%以上,在空气中能分解成尿素、水和氧气,在乙醇中能分解成尿素和过氧化氢,是便于储运的双氧水发生剂。可用作氧化剂、洗净剂、消毒剂、漂白剂、染毛剂等。上海试剂厂
期刊
在国内病理领域中,目前主要依靠具有丰富经验的病理专家进行诊断。但是病理科专家数量较少,并且工作效率低下。随着人工智能机器学习等领域的发展,病理诊断智能化也存在了极大可能。为了提升病理医生工作效率同时提高Ki67评分的准确度,本文对基于乳腺癌的Ki-67图像的目标检测算法进行改进,在基于Faster R-CNN网络基础上的相关工作和改进如下:(1)由于Ki-67没有公开数据集,对医院提供的大分辨率K
碳纤维增强复合材料(Carbon Fiber Reinforced Polymer,CFRP)是一类具有高韧性、高强度、耐高温、抗腐蚀等出色性能的新兴材料,被广泛应用于航空航天、电力电子等领域。由于复合材料的制造过程复杂以及在使用过程中易受到摩擦或冲击等外力影响,材料会产生不同程度的缺陷问题。光激励红外热成像(Optical Infrared Thermography,OT)无损检测技术具有可检面
手术导航利用丰富的医学影像信息来实现手术中对患者解剖结构的快速精准定位,降低手术风险,已然成为当今医学手术领域的热门技术。但受手术室空间和成像条件限制,术中很难进行实时3D成像,因此为实现术中3D导航需要将术前3D图像(如CT)与术中2D图像(如X光)进行配准,即2D/3D配准。2D/3D配准的实质就是把术前3D浮动图像降维后的图像与术中2D参考图像使用优化算法来实现两张图像的对齐,使两者的相似程