论文部分内容阅读
随着Internet的飞速发展和动态网页技术的持续应用,深层网中含有越来越多宝贵的资源,如何让系统自动提取这些资源,供人们检索分享,成为近年来的研究热点。提出了逆向搜索匹配算法(RSM),用于识别深层网查询表单控件的标签。算法将查询表单看作有序的文本和控件序列,结合控件类型以及与文本的间隔关系进行标签识别。通过4组数据的实验,验证了所提出方法的有效性。