基于领域本体的Web信息抽取研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:weiyuanbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,Web作为全球化的信息源已经成为人们获取信息的重要来源。但是,由于Web页面的无结构性、Web内容的多样性和Web页面的动态变化等原因,人们在Web上很难搜索到真正想要的信息。Web信息抽取技术可以将Web中各种不同格式表达的信息转化为统一的信息表达方式,从而为人们提供更有力的信息获取工具。本文通过研究和分析本体的相关概念和本体的构建,以及信息抽取的相关知识。在此基础上,本文提出了一种新的基于领域本体的Web信息抽取方法。该方法利用领域本体中的概念、属性、关系等自动生成匹配模式,同时对待抽取Web页面进行预处理及语法分析得到处理后的文档,再和生成的抽取规则一起对预处理后的文档进行信息抽取,最后把抽取的结果以记录的形式输出到数据库以便查询。基于领域本体的信息抽取最大的优点是抽取对Web页面的结构没有依赖性。另外,利用本体来描述和表达信息抽取的知识库增强了抽取模板的语义表达能力,将信息抽取的重点放在特定的领域,可以大大提高信息抽取的准确率。本文按照上述方法并结合实际情况,设计并实现了一个基于笔记本领域本体(NoteBook Domain Ontology, NDO)的Web信息抽取系统。在设计阶段,详细地介绍了该系统的总体框架以及系统的各主要模块。之后,本文通过解析本体得到的概念、属性、层次结构构建了本体模型树,并使预处理后的无结构文本按照本体模型树结构进行待抽取对象的信息抽取。最后介绍了实验结果并就此进行了分析。
其他文献
指代和省略是自然语言中广泛存在的语言现象,会造成语句的歧义问题,给自然语言理解带来了极大的困难,尤其是在聊天机器人等多轮对话的应用场景下。指代消解具有较长的研究历
当今,随着无线通信技术的不断发展,无线接入技术的广泛应用,数目众多的无线终端设备接入网络,不仅进一步的加剧了IPv4地址资源的枯竭,同时也对IP网络提出了更高的移动性要求
虚拟实验室是现代教育实验改革的热点研究问题之一。本文针对VRML在构建虚拟模型存在的真实性和多样性不足的问题,将细节层次算法和图像贴图模式引入到VRML构建计算机组成原
随着网络的迅速发展,网络的服务质量(quality of service, QoS)保证成为当前研究的热点问题。而分组调度算法是实现QoS的重要内容。本文首先分析了现有的典型分组调度算法:基
在日常的教学过程中,对学生成绩进行统计与分析是一项重要而又繁琐的工作,这项工作看似简单,但却因为待处理数据量大,程序繁多,处理起来需要很大的耐心和细心。针对Excel表应
随着混沌理论在保密通信工程等领域的应用,构建实际的混沌系统,产生混沌信号成为混沌应用研究的热点。混沌系统的物理实现是混沌应用的硬件基础。本文以简化Lorenz系统为研究
网络的高速发展,使得分散的、异构的计算机资源有机的结合到一起,并且使其形成一个巨大的网格成为可能。相应地,网格中的任务调度也成为一个非常重要的问题。任务调度算法的
近年来计算机网络技术和多媒体技术等取得了快速进步和广泛应用,网络信息的安全和保护问题成为亟待解决的重要问题。数字隐写作为隐蔽通信的重要手段,近年来成为信息安全领域
无线通信技术的发展彻底改变了我们的日常生活,其技术应用涉及自动化控制、跟踪与监控。随着无线传感器网络(Wireless Sensor Network,WSN)技术的发展改进,出现了体域网(Wire
当前,随着掌上电脑、手机等移动设备的迅速普及,越来越多的应用与服务被包含在移动设备中,如短消息、电子邮件的收发以及一些文件的处理等,使得人们对移动设备上具有快速高效