【摘 要】
:
随着互联网技术的发展,嵌入元数据(RDF,RDFa,Microformats等)的网络语义文档包含越来越多的结构化和半结构化数据。已有数以亿计的该类文档可以访问,并且它们的数量正在迅速
论文部分内容阅读
随着互联网技术的发展,嵌入元数据(RDF,RDFa,Microformats等)的网络语义文档包含越来越多的结构化和半结构化数据。已有数以亿计的该类文档可以访问,并且它们的数量正在迅速增长。为了实现半结构化数据能够供机器和用户一样的阅读与理解,必须对半结构化信息检索和分析提供有效的手段。语义网中的元数据不仅描述事物的属性,还描述事物之间的层次关系。传统的关联规则挖掘只关心事物本身,而不关心事物的本质,以至于产生大量无用的规则。通过高层次事物之间的挖掘,能够得到更有用的关联规则。计算机通过语义数据能够理解用户搜索需求,智能给出搜索结果。本文通过一种实体搜索模型,把传统基于“文本”的搜索改变为基于“对象”的搜索,使得搜索引擎能够更加智能地理解用户的真实需求。该实体搜索模型将半结构化数据转化成节点标签树存储在分布式倒排索引中,通过内容查询和结构查询实现智能搜索。本文同时设计了通过分布式倒排索引实现频繁项集挖掘,给出的DiiElact算法通过事务集合垂直划分和并行计算解决了数据挖掘过程中求交集运算效率低下和内存不足问题,实验证明了算法的高效、可扩展。利用实体搜索模型得到事物之间的层次关系,结合DiiElact算法,实现高层次事物之间的关联规则挖掘。
其他文献
信息技术的蓬勃发展大大促进了人类社会的进步。网上信息交流、电子商务、办公自动化、自动控制技术等信息技术极大地减轻了人们的劳动强度,方便了人们的工作、学习和生活。因
工作流管理系统越来越多的应用到电子商务与电子政务中,并已经取得了很好的应用。随着信息技术的不断发展,工作流系统变得越来越复杂,在满足应用需求的同时对其安全性有了更
网格门户是利用Web应用技术对网格资源和服务进行集成,给用户提供一个透明的针对特定问题的专有视图,降低了用户使用网格的复杂性。用户能够通过熟悉的Web界面、方便一致的操
作业车间调度问题(Job-Shop Scheduling Problem JSSP)是一种典型的组合优化问题,在工程应用中有着十分重要的地位。本文在研究现有JSSP求解方法的基础上,重点关注了基于免疫
第三方物流做为一种先进的组织方式和管理技术,被广泛认为是继降低物资消耗、提高劳动生产率之后的第三利润源泉。因此,研究物流系统建模技术及建立准确的物流系统模型,对更好地
随着网络技术的迅猛发展,WWW已成为信息发布、交互及获取的主要工具,它涉及新闻、广告、消费、金融、教育、电子商务等许多领域。Web具有四个特点:庞大性、动态性、异构性、
随着彩色信息在相关领域得到越来越广泛的应用,人们对色彩再现的质量也提出了更高的要求。色外观匹配技术是跨媒体色彩管理的一个重要组成部分。本文针对传统色彩管理技术不
随着对脑功能成像研究的深入,人类对语音运动控制的机理有了一定的共识。基于此,波士顿大学Guenther教授带领的研究小组提出了一个专门用于解释语音生成和获取过程的神经计算
SNP(单核苷酸多态性)是DNA多态性的一种最普遍的类型,它产生于基因序列中的一个核苷酸发生改变时,即一个SNP为基因序列中的一个核苷酸变异。SNP在整个人类基因组中大量存在,因此
在通信网络程序开发中,经常需要在通信设备以及网管软件之间进行数据报文的交换,但由于设备、软件平台异构和资源有限等诸多因素影响,使得通信报文的编解码对编码后的数据流(