Web档案相关论文
提出基于特征定位边界预测的Web主题型页面的采集方法,以达到高速抽取互联网档案有效内容的目的。开发ROST CM、ROST TextExtracto......
本文主要介绍于2013年12月1日新发布的ISO/TR 14873:2013(E)《信息和文件—网页(Web)档案的统计和质量问题》的特点,并详细介绍了......
提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比......