Web实体活动融合关键技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:slzj118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,互联网技术的发展日新月异,互联网已经逐步渗透到了人们的生活之中,并成为了人们获取信息、传播消息的重要渠道。伴随着Web中信息的爆炸式增长与迅速传播,Web已经成为了一个重要信息源,这些蕴含在Web中的信息有着重要的研究意义与价值。对Web中的海量数据进行分析、挖掘、处理,可以获取丰富的信息价值,这些信息可以被集成在如市场情报分析、舆论分析以及电子商务等系统中,为人们提供深度信息服务。Web按其所蕴含信息的“深度”可划分为Surface Web和Deep Web。Surface Web (?)旨可以通过URL链接而被传统搜索引擎搜索到的页面。Deep Web是指Web中可被访问的在线数据库,它们的内容存储在真实的数据库中。这些内容只有在通过查询接口进行查询时才会由Web服务器动态生成页面并把结果页面返回给访问者。本文的研究对象是Web实体活动。所谓Web实体活动,即一个确定的实体,在一个确定的时间和一个确定的地点所做出的一个确定的活动。Web实体活动的集合便构成了Web实体的踪迹。Web实体踪迹具有重要的分析价值,比如就业市场情报分析中,一个企业的发展踪迹,对于求职者具有很好的参考价值。不同于传统集成系统研究对象主要来自于Deep Web页面中较为结构化的部分,Web实体活动集成系统所研究的对象主要来源于Web页面中的无结构化文本片段,通过活动抽取从自然语句中获取Web实体活动信息,并将其转化为结构化模式记录。本文主要研究Web实体活动融合关键技术。作为Web实体活动集成的最后一个步骤,Web实体活动融合将抽取所得的Web实体活动记录中指向同一Web实体活动的不同表象记录进行整合,得到一个完整准确的实体活动记录。Web实体活动融合包含两个主要部分,一个是Web实体活动重复记录检测,另一个是Web实体活动真值发现。前者将指向同一Web实体活动的不同表象记录筛选出来,为Web实体活动真值发现服务,通过解决数据冲突、补充缺失数据并发现真值,最终得到完整准确的记录。本文针对这两个部分展开研究,并分别提出针对Web实体活动的方法,主要工作如下:1.基于K-means聚类与SVM分类技术对Web实体活动记录进行重复检测,通过计算两个记录在每个维度上的相似度来获取他们的比较向量,将重复检测问题转化为向量分类问题。在获取比较向量后,先通过聚类获取一定的样本集合,然后使用该样本集合训练SVM分类器。本文通过观察Web实体活动问题特征,在结合传统计算方法的基础上,利用句子的结构特征来计算比较向量并使用加权欧几里得距离公式改进了聚类效果,最后采用迭代式分类方法对比较向量进行了分类。2.提出一种基于马尔科夫逻辑网的Web实体活动真值发现方法。本方法利用马尔科夫逻辑网能够处理不确定性以及不完整甚至矛盾的知识的特性,在考虑传统数据融合特征的基础之上,结合维度间的语义联系,制定推理规则,来达到发现真值的目的,提高了Web实体活动真值发现的准确度。
其他文献
物联网产业的蓬勃兴起掀起了世界信息产业新的发展浪潮,而无线传感器网络作为一种多学科高度交叉、知识高度集成的新技术,存新一代网络中扮演着特别重要的角色,并成为当前的
云计算是互联网产业中用户和企业需求驱动的产物,以服务按需付费为特点,为用户提供更为高效便捷的服务。随着云计算的高速发展,云存储也因其高扩展性、高可靠性和低成本的特性受
随着现代科学技术的不断发展,越来越多的领域运用到了计算机视觉图像处理的技术。其中,视频目标跟踪是一个新兴的研究方向,它融合了多种高级的科学技术,诸如人工智能、模式识别以
BWDSP100是一款国内近期开发的高性能数字信号处理器,本文所论述的工作是以Openimpact为编译基础架构,为BWDSP100实现调试信息的生成和复数乘法操作的优化。   基于编译基础
免疫水印是近些年来在传统数字水印的框架基础上提出的算法模型,它不同于普通水印,最后得到的公布图像具有免疫性和自恢复性,并且可以对嵌入的自恢复信息进行加密处理,在版权保护
当今社会互联网技术已经得到广泛运用,这就带动了电子商务现今的高速发展,同时也导致了Internet中的资源数量以几何数级在快速增长。“信息爆炸”和“信息过载”使得人们在面对
随着经济社会的发展,各行各业对软件的需求和依赖程度在逐渐增强,与此同时,软件安全问题日益突出,特别是在一些安全攸关的领域中,软件的可靠性变得十分必要。提高软件可信程度的方
Nowadays computers have become the most important tools in many aspects of human life. Machine translation, the automation of the translation process by compute
云中聚集了大量的资源和服务,可以供租户选择和使用。租户可以利用云中已有的服务,根据服务的定制规则和自己的需求,将其组合成新的应用。这些应用通常被称作多服务应用,构成
随着网络技术的发展,以及外包计算和存储的大量涌现,一种新的计算模式---云计算,正在逐渐兴起。所谓云计算,是指通过网络方便按需地访问可配置的共享计算资源,如网络、存储、