论文部分内容阅读
该文提出了在Web环境下发现和抽取半结构化网页信息的理论和方法,主要包括:基于结构聚类的半结构化网页类的发现和筛选方法;提出了基于最大叶节点映射的树结构相似度衡量方法,与经典的树编辑距离方法相比,大大提高了计算速度,另外也通过压缩叶节点的路径降低了计算过程中所需的存储空间.提出了网页的两步聚类方法,在算法中利用了网页结构相似关系的传递性来推导网页之间的相似程度,从而大大减少计算网页之间相似程度的次数,提高了聚类速度.基于XPath的半结构化信息抽取方法;提出了一种半自动化的包装器生成方法,使用XPath作为抽取模式的描述语言,充分利用了网页的结构特征,其抽取准确率和处理速度都比较高,已经能够满足于大规模网络信息抽取的实际需求.提出了一种基于机器学习的包装器生成方法,在该方法中只需要用户标注少量的学习样本就可以通过该文提出的EGA算法来自动生成每个待抽取目标对应的抽取模式.这样就提高了包装器生成过程的自动化程度.通过在标准测试集上的对比测试,该文提出方法要明显优于同类算法.面向特定领域的全自动化信息抽取方法;新闻是目前网上用户非常关心的一个领域,因此抽取网上新闻并提供统一的新闻服务平台是项意义非常重大的工作.在该文中通过对海量新闻网页的分析,发现这类型的网页具有很明显的内容和结构方面的特征.针对这些特征,该文提出了一套定位和识别算法,并利用这些算法实现了针对新闻领域的全自动信息抽取.该文提出的理论与方法,已在国家重点基础研究发展规划(973)课题的原型系统COMMIX中得到验证和展示.在该文中也对COMMIX系统的实现也作了简要的叙述.