语义信息自动生成研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:tiankun7294
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的出现为人们获取信息提供了极大的便捷,但随着信息的海量增长,人们已经越来越难从网上找到自己想要的信息了,大量的有用信息淹没在了无用信息之中。为了使网络服务更加的个性化与智能化,万维网之父伯纳斯李(Tim Berners-Lee)提出了语义网的概念。语义网以本体的方式表示信息,使机器能够理解网上的信息,从而为实现更加智能化的信息服务提供了可能。 语义网的出现同时也提出了一道难题,那就是如何将互联网上现有的海量信息以规范化的形式来表示?如果纯粹靠人手工来完成的话,那将是一项艰巨的费时费力的任务。本论文结合现有的信息抽取技术和语义网技术,探索了一种将存在于网上的传统web信息自动地转化为语义信息,并以语义网要求的知识表示方法存储,以供语义网使用的技术,并在一个旅游信息服务系统(TBJ Traveling in Beiiing)中使用。 本论文首先分析了当前万维网的不足以及语义网出现的原因,针对TBJ系统的特点和需求,提出了语义信息自动生成算法和系统的设计实现方案,并应用到 TBJ系统的实现中。语义信息自动生成系统由网上信息获取、语义信息生成和语义信息表示三个主要模块组成。 在实现过程中采用了和网页结构相关的抽取以及和内容相关的抽取两个抽取步骤,这样可以较好的利用网页的半结构化特点,同时在和内容相关抽取中,提出了使用语义相似度量的方法。获得了较好的抽取精度。
其他文献
近几年来信息化进程开始以一种深度和广度共同发展的势头不断深入,随着物联网的兴起,大量传感器以及智能终端广泛应用于传统工业领域,这样势必带来数据的海量增长。如何有效的利
随着移动通信技术和IP网络的迅速发展,多媒体通信正逐步成为通信的主流业务,可视电话,会议电视,图像和视频媒体等都要求有更好的视频编码标准出现以适应各种应用的需求,新一代动态
身份证作为人口信息行之有效的管理工具,已经运用到了社会生活的方方面面,身份证的信息获取具有十分重要的作用。目前,身份证中的个人信息录入大多采用人工录入,或者利用设备读取