论文部分内容阅读
该文从预处理阶段的这两方面工作入手,郑重讨论了以下这几个方面的内容:1、系统分析了HTML文档解析处理的相关技术,其中包括传统的基于有限状态自动机的词法分析技术、基于递归下降思想的语法分析技术等.在此基础上,设计并实现了一个面向Web信息检索的HTML解析器,该解析器具有速度快、容错性高的特点.2、基于HTML文档解析的结果,根据Web信息检索的需求,该文提出了一整套对页面内部的文本、多媒体对象的上下文、页面中的URL信息以及统计信息等进行抽取的处理机制,为提取元信息以及建立索引等后期处理打下了坚实的基础.3、在面向教学的信息检索应用中,网上的大量教学图像往往是检索的重点,所以识别出教学相关图像并对它们加以分类量一项非常和意义的工作,该文将这两方面工作统称为图像的基础分类,在这个部分的设计中,SEAGINE提出了基于教学相关图像特点的三种分类(即照片计算机渲染图以及示意图)对分类特征的表示和量化进行了详细的阐述,并给出了实验的结果.实验表明,对于示意图的区分达到了较主的精度.4、该文界定了课程相关页面的含义并提出了这种页面的类型划分(即课程入口页面、课程列表页面以及具体信息页面);接着在在大量的分析工作基础之上,进行课程相关页面分类特征的表示和量化,最后,基于分类的结果,采用简捷的算法对课程内容(范围)进行了确定.5、页面重要程度是现代页面分组技术的一个重要方面,该文引入了经典的用于衡量页面重要性的技术——PageRank技术,将其作为页面分级元信息提取的一部分;在详细分析了PageRank的思想之后,该文还介绍了一个高效的基于分块的PageRank的实现算法,作为SEAGINE开发中相应部分的指导和参考.6、页面细节度是用来刻画页面对于主题描述细胞节程度的一个指标,该文采用页面中有关表格、公式以及多媒本对象的数量统计值作为页面细节度衡量的依据.整个思想和算法是SEAGINE页面分级机制中的一个技术尝试.该文对教学专用搜索引擎SEAGINE的预处理部分所涉及的相关技术的和实现方案进行了系统的讨论,其中的分析和论述对于实际系统的开发起着重要的指导作用;另外,有关HTML解析、图像清洗、页面重要性的衡量以及各种分类工作的思想和技术也可以应用到其它Web信息检索系统中.