面向教学的Web搜索引擎中页面语法信息的抽取和元信息的提取

来源 :南京大学 | 被引量 : 0次 | 上传用户:HELING0702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文从预处理阶段的这两方面工作入手,郑重讨论了以下这几个方面的内容:1、系统分析了HTML文档解析处理的相关技术,其中包括传统的基于有限状态自动机的词法分析技术、基于递归下降思想的语法分析技术等.在此基础上,设计并实现了一个面向Web信息检索的HTML解析器,该解析器具有速度快、容错性高的特点.2、基于HTML文档解析的结果,根据Web信息检索的需求,该文提出了一整套对页面内部的文本、多媒体对象的上下文、页面中的URL信息以及统计信息等进行抽取的处理机制,为提取元信息以及建立索引等后期处理打下了坚实的基础.3、在面向教学的信息检索应用中,网上的大量教学图像往往是检索的重点,所以识别出教学相关图像并对它们加以分类量一项非常和意义的工作,该文将这两方面工作统称为图像的基础分类,在这个部分的设计中,SEAGINE提出了基于教学相关图像特点的三种分类(即照片计算机渲染图以及示意图)对分类特征的表示和量化进行了详细的阐述,并给出了实验的结果.实验表明,对于示意图的区分达到了较主的精度.4、该文界定了课程相关页面的含义并提出了这种页面的类型划分(即课程入口页面、课程列表页面以及具体信息页面);接着在在大量的分析工作基础之上,进行课程相关页面分类特征的表示和量化,最后,基于分类的结果,采用简捷的算法对课程内容(范围)进行了确定.5、页面重要程度是现代页面分组技术的一个重要方面,该文引入了经典的用于衡量页面重要性的技术——PageRank技术,将其作为页面分级元信息提取的一部分;在详细分析了PageRank的思想之后,该文还介绍了一个高效的基于分块的PageRank的实现算法,作为SEAGINE开发中相应部分的指导和参考.6、页面细节度是用来刻画页面对于主题描述细胞节程度的一个指标,该文采用页面中有关表格、公式以及多媒本对象的数量统计值作为页面细节度衡量的依据.整个思想和算法是SEAGINE页面分级机制中的一个技术尝试.该文对教学专用搜索引擎SEAGINE的预处理部分所涉及的相关技术的和实现方案进行了系统的讨论,其中的分析和论述对于实际系统的开发起着重要的指导作用;另外,有关HTML解析、图像清洗、页面重要性的衡量以及各种分类工作的思想和技术也可以应用到其它Web信息检索系统中.
其他文献
该文介绍了基于知识和数学模型的农业专家系统生成工具的设计与实现.该文主要分为四部分,分别介绍了农业专家系统生成工具的总体结构、知识库管理系统、模型库管理系统和推理
电子现金是一种新型的电子支付方式,它具有保护用户支付行为隐蔽性,防止拒绝支付和透支行为等诸多优点,它作为纸币的电子等价物已完全可能具备货币的五种基本功能,即价值量度、流
该文主要研究内容是在结点的故障模型为Fail-silent和验证性拜占庭故障的条件下,对分布式故障诊断技术中的四个关键问题进行了深入研究,包括:故障检测;信息传播;协同;故障诊
该文介绍国家高性能计算机环境(NHPCE)中资源信息管理的设计和实现.NHPCE,我们又称之为网格(GRID),其实现的软件我们称之为GRIDWARE.其中资源信息的管理和收集是GRIDWARE中一
电子商务的迅速发展,使电子商务协议的开发变得十分必要,这些协议应确保信息交互的可靠性与完整性.形式化建模是设讨具有高可靠性计算机系统的有效方法,因而,对电子商务系统
指令级并行处理ILP(Instruction-Level Parallelism)是一项增强处理器性能的技术,它通过增加每个时钟周期执行的指令条数而提高性能。超长指令字VLIW(Very Long Instruction Word
Java语言作为一个面向对象的编程语言,虽然它以C++为基础,但是它是一个全新的软件开发语言.与C++不同,它是一个完全面向对象、适用于分布式并与平台无关的环境.JBRET_Java是
该文在分析了国内目前使用较广泛的收费系统的优缺点之后,针对国内部分地区(主要是广东省)的情况,提出了广东省电子不停车联网收费系统模型.电子不停车联网收费系统是以计算
该文具体内容包括:1、该文对针对数据仓库及其应用的特点,提出了新的多表连接算法MJoin,相比传统的多表连接处理方法,性能有显著提高;然后又在多表连接算法的基础上,提出了一
作为计算机软件的核心,操作系统的安全对于所有的计算机软件来说都至关重要。但是由于操作系统的规模非常庞大,而且结构极其复杂,这使得操作系统的安全问题存在非常多的不确