论文部分内容阅读
为生成含噪声的扫描文档图像的基准标引信息,系统首先基于无噪声的PDF文档抽取理想化标引信息,采用透视变换模型,将其与含噪声文档图像进行配准,最终生成含噪声图像的基准标引信息,将其用于测试文字识别、检索的精度。系统还基于几种经典的图像退化模型,批量产生了含不同噪声类型的文档图像。经实验表明,该系统标引信息精度高,图像退化结果与实际噪声效果接近。