文本型Web内容中隐含实体关联的挖掘、推理与应用

来源 :云南大学 | 被引量 : 0次 | 上传用户:catche
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本型Web内容(Textual Web Content,TWC)包含电子邮件、网页新闻等。以TWC文档中实体关联为基础,可完成数据获取、关系强度评估、社交网络分析等任务。隐含实体关联(Latent Entity Association,LEA)表示两个实体通过不同TWC文档中的中间实体间接地产生关联。发现并利用LEA有利于改善基于实体关联的分析方法的结果,但需要解决这些问题。(1)理论角度:TWC数据中实体关联的建模、实体关联的评估及排序。LEA是不确定的,需要对这种不确定性知识进行表示和推理。并非所有的LEA都对后续的任务有价值,因此需要对LEA按强度进行排序。(2)应用角度:TWC数据的获取、交互式系统。通过获取互联网中最新的TWC文档而分析得出的LEA将具有更好的时效性。交互式系统应支持由用户自定义TWC数据和目标实体,并将分析过程的各步骤可视化结果展示给用户。从理论的角度,本文重点研究了 TWC数据中实体关联的建模和实体关联的评估及排序,分为三方面:(1)本文给出了LEA的定义并提出了实体关联贝叶斯网(Entity Association Bayesian Network,EABN)以对LEA的不确定性进行建模。EABN模型将实体视作变量,使用有向无环图表达实体间的相互依赖,使用条件概率表则量化实体间的相互依赖。(2)本文提出了 SBIC策略以加速EABN的结构学习。在EABN的结构选择过程中,自组织映射可利用TWC中实体的稀疏性将一个TWC数据集划分为若干个子集,我们不断地选择某个子集来评估候选结构中的某条边。(3)本文提出的EABN模型可通过概率推理按强度排序LEA。通过EABN概率推理产生的实体关联列表中大部分是LEA,每个实体关联涉及的两个实体在随机子集中的实例数比值的标准差随着EABN排名增大而增大;通过EABN概率推理也可以找出没有出现在新TWC数据中,但与新TWC数据相关的实体。从应用的角度,本文设计并实现了 TWC数据的获取系统和交互式系统:(1)本文开发了一个网络爬虫以获取互联网中最新的TWC文档。该网络爬虫通过搜索引擎的自定义查询获取历史网页网址列表;使用PhantomJS执行复杂地页面渲染;爬虫获取的数据存储在MongoDB数据库。(2)本文开发的交互式系统支持自定义以TWC文档和目标实体、分析结果可视化和持久化,以及跨平台、跨终端等特性。
其他文献
单元制造中,具有相似工艺的零件聚成零件族,在单个制造单元中完成加工。然而实际加工过程中,由于产品更新换代加快,异常件不能在单个制造单元完成所有工序加工,必须采用跨单元加工方式完成异常工序加工,异常件需要在不同制造单元之间转移,由此产生跨单元调度优化问题。现实中由于运输车辆数量有限,即跨单元调度过程中运输能力受到限制,为最优化单元制造系统生产效率与降低成本,需要协调单元间机器的加工以及车辆的运输过程
图像转换技术在生活中有重要的应用价值,若能在移动应用中使用面部表情转换功能,将为用户提供更加便捷的体验。随着深度学习的发展,生成对抗网络广泛应用于图像处理领域。但是传统的生成对抗网络在图像转换的研究中仍然存在训练过程不稳定和训练集图像不成对等问题,这在一定程度上限制了图像转换技术的发展。针对这些问题,本文设计了一种基于循环生成对抗网络的图像转换机制,并在移动设备中实现,主要工作概括如下:1.针对面
高速公路作为公路交通的主要组成部分,其车流密度正逐年增大,加之车辆行驶速度普遍较快,公路沿线气候环境复杂多变,整体运行状况瞬息变化,运营管理机构对监控系统的实时性提
全点对的最短路径问题在社交网络,生物网络,网络路由处理中有着重要的应用,多数文献提出的方法是针对静态图的。然而在边及权值频繁变化的应用场景中,大量的重复计算会带来不
互联网时代的到来带来日新月异的变化,各类软件应运而生,微信的出现得到了大多数用户的广泛认可,随即成为即时性通讯软件的领军者,同时也成为影响力最大的应用软件之一。在此基础上,自党校的教学、科研、人才管理事业和数字整合以来,台州市委党校图书馆于2014年6月开设了第一个党校图书馆微信公众号-台州市委党校图书馆,其他党校也纷纷开始使用微信公众平台在新媒体时代开展服务工作。互联网+技术融入传统图书馆服务中
各国法律或判例都有确认外观设计专利的美感要求,由于工业品设计产品的两个性质:一是工业品外观设计的本身性质;二是知识产品的属性,使美感要素成为保护外观设计产品的必然要
立体匹配作为计算机视觉中的基本挑战,其任务是获得左右图片中像素的对应关系,计算出视差图。在过去的很长一段时间,科研人员都在提高立体匹配算法的精度和速度上不断探索。
内存数据库将数据常驻在主存中,以优越的性能,在实时数据库领域应用广泛。Redis是一个开源、支持网络、高性能、可基于内存亦可持久化的键值(Key-Value,K-V)数据库。当前使用Redis往往要进行RDB(Redis DataBase)或AOF(AppendOnly-File)持久化以保证数据可靠地存储在外存设备中,而持久化过程又会反作用数据库,影响数据库的性能。其中,AOF的读写性能和保存频
改革开放以来,马克思主义史学理论在与中国实践结合的过程中,获得了显著发展。面对新时期以来的新形势,史学家们经过艰苦的探索,在一些史学理论问题上取得了丰硕的成果。本文以人物评价、历史过程、历史规律这三方面的理论问题为研究对象,通过梳理与分析它们在1979年到1999年这一时期的发展变化以及给当代史学的启示,希望借此能更好地推动马克思主义史学理论的更快发展,巩固其在史学中的指导地位。本文主要由绪论、正
近年来,人工智能成为了人们日常生活中的热点话题之一,而随着科学技术的发展与进步,人工智能更是应用到了科研和和工程等等多个领域当中。作为人工智能中的一个重要分支,深度