论文部分内容阅读
在互联网中,网页等半结构化文本通常由不同的语义区块组合而成,定位和挖掘这类区块对网页内容理解、页面结构分析等有着重要的作用.然而由于不同网页在结构和内容上都存在着较大的区别,准确的从不同的网页中定位特定的结构区域是一个相对复杂的任务.主要提出一种基于树匹配的方法用来挖掘网页中的语义区块,并通过剪枝等策略优化算法.实验表明该方法能有效提高F值,同时算法的性能有较大改善.