论文部分内容阅读
针对目前方法不能处理复杂表格或嵌套表格等缺点,提出了自动获取超文本标记语言(HTML)表格的语义层次结构的方法.该方法以表格的4种基本类型为基础,使用内容树表示表格的语义层次结构.方法主要包含3个步骤:识别HTML表格的属性单元格和值单元格;将表格拆分为基本表格;为拆分后的基本表格构造内容树,获取表格的语义层次结构.实验结果证明该方法能自动处理嵌套表格和复杂表格,复杂性不高,精度较好.