论文部分内容阅读
该文在前人已有的研究工作基础上,重点研究了动态Web页面(包括Hidden Web)的信息抽取技术和算法,Web信息集成中的Schema匹配等问题.在研究获得的算法基础上实现了一个智能信息代理平台,并成功地应用于自然科学基金项目—基于Ontology的Web音乐知识检索系统.主要的研究和成果如下:1.该文提出了针对动态生成网页的基于Web树结构表示的信息抽取和注释算法.该算法任意从页面集中选择两个页面或多个页面作为样本,无需人工标注,从中自动推导出页面模板Wrapper和数据模式.算法中创新提出的最小抽取树、纯文本模板单元等概念提高了Web页面模板识别的准确性并减少了Wrapper生成算法的开销;页面数据的语义注释直接利用了生成Wrapper过程中的中间结果.通过对大量真实网站上下载的网页进行实验表明该算法在两种不同类型的动态网页抽取和注释上都具有很好的效果.2.通过Web获得的数据Schema没有传统关系数据库的Schem的完整定义,该文提出了基于聚类的Web信息Schema匹配算法.该算法综合使用了实例匹配和Schema名字匹配两种技术,给出了聚类算法中对象距离的计算方法,避免了通常schema匹配算法中1-1匹配的限制以及对schema定义的要求.实验数据表明了算法的有效性.3.该文提出了一套自动搜集、索引以及查询Hidden Web入口信息的新途径,给出了其中关键的算法.它能自动从网页上抽取Hidden Web的访问入口,借助Ontology技术按应用领域筛选出对应的访问入口,并将其转换为统一定义的Ontology概念.由于使用统一的概念表示Hidden Web的查询入口参数,为机器自动地查询后台信息提供了基础.4.利用研究所得的Web信息抽取算法、Schema匹配算法以及Hidden Web索引等技术,该文设计并实现了一个智能信息代理平台,它能为信息系统从Web上收集信息,并按照领域模型进行知识集成.该代理已成功地应用于自然科学基金重大国际合作项目,中国民族音乐数字图书馆子系统—基于Ontology的Web音乐知识检索系统,为该系统收集、集成Web上的音乐知识.通过更换领域模型的定义,该代理可以方便有效地应用于不同的信息系统.