论文部分内容阅读
设计海蓝目录自动识别系统。该系统在获取已预处理过的目录图像之后 ,对图像进行版面分析 ,利用OCR技术识别文字 ,并自适应地获取目录的缩进量作为判断目录层次的依据 ,最后通过目录提取和人工校正得到统一的目录格式。该系统具有自动识别、提取书籍目录结构等功能 ,能有效地处理多种格式的书籍目录类型。