基于本体的个人站点信息抽取研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:zhuang321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
身处一个高速发展的信息时代,随着互联网的日渐普及,信息载体的日益增多,使得大量的无关信息充斥着人们的眼球;面对信息量的爆炸式增长,单纯的依靠人工筛选价值信息已经不太现实。然而信息时代的人们对于信息的渴求度又是十分强烈的,如何从这些繁多的信息量中选取出用户感兴趣的价值信息,满足他们的信息效率需求,已经是当今研究的重要课题。这些都推动了信息抽取研究工作的进行,目前,抽取工具已经成为了人们日常生活中不可缺少的好帮手,信息抽取技术也是在日渐不断完善的过程中。而现在信息量的大幅增长主要就是依靠互联网这个载体,但是由于网上信息资源的异质性和缺乏统一的结构组织,使得大规模的网络信息的浏览和抽取都受到一定程度的限制,于是将信息抽取技术应用于互联网作为缓解这种局面的一种有效途径而出现,相对于维护费用昂贵的精密网络挖掘程序,网络信息抽取技术一直致力于自动地将输入页面转化为统一的结构化数据。因此,本文采用网络信息抽取技术来对所需信息项进行筛选,构建研究领域的参照模型,据此设计信息抽取系统完成对目标网页的抽取。将本体引入网络信息抽取技术中,是本文研究的中心思想。本体作为一种规范性的概念关系描述,在形成模型标准的时候,具有与生俱来的优势,可以对研究领域内相关概念关系进行集约化处理,从而给出领域内目标信息框架,更加合理地对样本信息执行抽取操作。本体模型作为本文抽取过程中有力的工具,通过一个专业化的构建过程,在其全面性和互通性上可以达到令人满意的程度,使得信息抽取工作对于网页结构的依赖性较少。通过本体展示的领域内相关描述,结合样本实例,这两者是本文信息抽取所必不可少的依据。本文的目标信息源来自个人站点网页,结合自身的学术背景,以学者个人站点作为数据源,来设计本文的信息抽取系统。首先,本文对于个人站点、本体、信息抽取的知识进行了简单介绍;然后对比分析个人网站的结构特征,又结合本体的特质,确定将本体模型引入到本文的网络信息抽取技术中,使得本文的抽取策略成为可能。本文的研究重点是设计适用于抽取个人网站信息的本体模型,利用本体开发工具完成进行开发,还包括本体的检测推理以及存储这些后期工程。之后结合本体模型,构建抽取规则,利用信息抽取算法实现对网页信息的有效筛选。系统界面的简单化设计更易上手,用户可以根据自己的兴趣需要,对目标个人站点进行信息抽取,从中可以清楚的看到各个信息项的清晰描述。其中,设计本体和信息抽取规则是本文的核心内容。将基于本体的信息抽取方法与其他方法相比,对同一领域而言,可以由领域专家来定义域内的概念、关系、层次结构、概念关系间的约束等,并根据这些来生成抽取规则,之后将规则作为抽取输入文档的标准。理论上足够强大的领域本体可以使该领域的信息抽取达到很高的抽取精准度,本文的研究对提高信息抽取完备率、准确率具有一定的意义。
其他文献
工程项目工期-成本-质量的均衡优化一直是工程建设领域的重要研究课题。许多学者对工程项目工期、成本和质量之间的相互关系进行了深入的研究,提出了在确定性环境下的二维或
这是一节一年级的看图写话训练课,我选择的图画内容是一个山坡,山坡上有一只大山羊和一只小山羊。为了方便学生有序地表达,也为了给学生由说到写搭建桥梁,我特意写了一篇下水
期刊
双渠道供应链管理是随着B2C电子商务技术的发展逐渐兴起的一个新的供应链管理领域。随着互联网技术的不断发展,越来越多的产品制造商不再局限于通过传统零售商渠道销售产品,开
工作以来已经很少能够想起来翻翻除教育类书籍以外的书了,自初次走上讲台,每天都是忙得昏天黑地,备课、上课、改作业、教研……经历了与孩子们一个学期的斗智斗勇,结束时好像整个人都变得急躁,用之前流行的一句话来形容自己特别准确:人走得太远,却忘记了为什么出发。  就在这时,学校贴心地准备了一本“闲书”——《岛上书店》,希望老师们能利用寒假的时间读一读。初次知道学校要我们读这本书的时候,我还有点小窃喜,这本
期刊
风儿哪里去啦  风儿哪里去啦  问问云吧  太阳哪里去啦  问问山吧  鸟儿哪里去啦  问问树吧  炒蚕豆哪里去啦  问问我吧  小孩子哪有不爱吃零食的?去超市瞧瞧,连牙牙学语的小娃娃都知道指着货架上五颜六色的糖果“啊,啊”直叫呢。可是我们小时候,要想吃零食,自己找去!哪里找?大自然一年四季到处是“零食”。  春天,在草坡上找细细的毛针草,把嫩绿的草心放在嘴里嚼,有股甜甜的草香;油菜花开的时候,到
期刊
而立之年已过,与我亦师亦友地陪着成长的,是我最好的朋友——书本。  我喜欢阅读,因为书可以让我的身体不必动,或坐或卧,居于一角,就走出最远的心灵旅行。这种最远,可以是地理上的,去到普罗旺斯,过简单、缓慢的法国乡村生活;或去汨罗易水,歌楚臣,哀汉将,临悲涛寒波上的风。这种最远,可以是时间上的,隔着数千年,跟拥有古代最敏感心灵的陈子昂在幽州台上,抬一抬杠;在国王十字车站的九又四分之三站台,穿越它,登上
期刊
深度学习提倡主动性、批判性的有意义学习,表达了一种对学习本质的认识。而课堂提问是教师最熟悉、使用最频繁的一种课堂教学组织方法。在深度学习观视野下,笔者认为可以从下面几个方面开展实践研究:  一、 化心一缕绕指柔,课堂提问定精度  精度,顾名思义就是要有一定的精密度和准确度。放到语文课堂中,就是说教师在课堂上要能有所选择,把握时机,适时地进行有的放矢的提问。只有在关键处提出有针对性的高质量的问题,才
期刊
庆祝北京矿冶研究总院建院40周年学术会议为了庆祝北京矿冶研究总院建院40周年,1996年9月26~27日我院举办了“庆祝北京矿冶研究总院建院40周年学术会议”。26日下午在院学术报告厅召开了学术交流
“我的运气真是坏.”狐狸图图对亮亮熊诉苦说,“今天,我和别的小伙伴捉迷藏,别人都开开心心,就我被蚂蚁咬得全身发痒.”rn“别提了,我的运气也很坏.”亮亮熊也苦着脸说,“昨
期刊
晚饭时,儿子说他在外面偶遇了初中时的化学老师张老师。同在一个城市生活,这很正常嘛。谁知,这位曾经的“张老师”成了我们一个晚上的话题。  “张老师是我遇到过的最好的老师。”  “何以见得?”以前我从没有听儿子评论过这位张老师。  “张老师非常有耐心。无论你问她什么问题,她都不会不耐烦。”  “老师都喜欢学生问问题的。”出于职业本能,我得为所有老师辩护。  “谁说的?”儿子的语气里满是不屑,“W老师就
期刊