面向教学的Web信息集成技术研究

来源 :天津理工大学 | 被引量 : 1次 | 上传用户:pingpinggangan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0和网络技术的发展,网络用户不仅是Web信息的消费者,也是Web信息的生产者,这就导致了网络上的信息量呈爆炸性增长。如何有效利用Web信息资源成为需要面对和解决的重要问题。对于这个问题,学者们也进行了Web信息集成方面的一些研究,但是这些研究工作主要集中在新闻、电影、音乐、博客等领域,而面向教育领域的工作却不多。基于此,本文提出了一种面向教学的试题抽取与分类方法,该方法基于用户输入的书籍名称和作者信息以及题型,自动在Web中爬取相关的书籍目录和试题,并通过计算书籍目录和题目之间的相似度来进行题目分类,从而可以达到自动化地建立试题库的目的。本文的主要工作如下:(1)提出了面向教学的书籍目录抽取方法。通过研究发现,由于亚马逊上的书籍目录相对其他网站(当当网、京东网等)比较完整,本文选择了亚马逊作为书籍目录的数据源。当用户输入书籍的名称和作者名时,通过PHP语言的simplehtmldom爬虫技术和模式匹配,能够从亚马逊上爬取该书籍的目录信息,然后通过DOM技术解析获得该书籍的章节信息;(2)提出了面向教学的书籍试题抽取方法。本文主要在百度文库上进行书籍试题抽取,通过用户输入书籍名称和试题类型来获得该书籍的相关试题,在这个过程中,需要对爬取过的文本和链接通过队列进行去重,过滤之前已经爬取得信息,然后对爬取得信息进行解析,最后获得每一道试题;(3)提出了面向教学的试题分类方法,在爬取书籍目录和书籍试题之后,通过下面步骤来进行试题分类:首先,本文需要利用PHPAnalysis和TF-IDF方法对书籍目录和试题进行分词和计算关键词,然后使用Jaccard方法进行相似度计算,获得每道试题的所属的章,即对试题进行按章分类,最后存入试题库,达到按章出题的目的;(4)基于上面这些方法,本文使用PHP语言设计和开发了一个原型系统,原型系统主要包括两方面的内容:手动输入试题和自动从网上集成试题,最后分类到试题库中。本文经过实验验证了这些方法的准确性和可行性。
其他文献
随着计算机性能的提高和控制技术的发展,离散控制系统理论越来越受到人们的重视。控制系统中普遍存在着时滞现象,时滞往往使得系统性能下降。另外,控制系统一般都是在外界扰
基于立体视觉的三维重建是计算机视觉领域的研究热点,在机器人导航、虚拟现实、建筑、工业设计等方面有重要作用。目前大多数三维重建研究工作集中在针对单个物体的三维建模
作为人工智能的重要研究领域,机器人学科半个世纪以来取得了飞速的发展。自主机器人的路径规划问题,如今已成为人工智能领域的前沿课题,引起了各国学者的高度重视。在自主式
无线传感网络(Wireless Sensor Network,WSN)中节点的定位技术是无线传感网络技术的核心技术之一,在很多应用中,位置信息的准确性是节点数据信息实用性的前提。在网络节点成
目前的Web搜索技术是基于关键词的搜索,信息的查全率和精确度仍然不能满足用户的需求,其效果常常不能使人满意。这是由于在Web搜索过程中,缺乏搜索引擎可读的语义信息,因而限
以TCP/IP协议为基础的Internet自从九十年代以来,其网络规模、用户数量以及业务量都呈现爆炸式地增长,新型网络应用也不断涌现,网络参数动态变化。这些使得网络拥塞的状况愈
细分技术是计算机图形学研究的热点方向,其研究成果在多个领域得到应用。体细分作为细分技术的一个分支,主要应用于自由变形。在自由变形时,如果控制网格(体网格)过于稀疏,变
关联规则挖掘是数据挖掘中的一个重要问题,它在商业领域的成功应用,使它成为数据挖掘中最成熟、最主要的研究内容之一。关联规则挖掘分为两步:频繁项集挖掘和利用这些频繁项集产
随着嵌入式系统的深入发展,对开发工具提出了更高的要求。在传统软硬件协同开发模式中,软件和硬件开发相互牵制,硬件干扰引起的异常行为严重影响软件的调试和测试,延误开发进
在Internet的飞速发展和普及下,丰富的Web资源构成了一个巨大的全球性信息仓库,网络已经成为人们获取信息的一个重要手段。面对庞大的Web信息,用户如何从繁杂的数据中快速、