论文部分内容阅读
【摘要】从电子图书的利用出发,引出表格式PDF图像转换为可编辑EXCEL文档的问题,网络求解不可得,转而从OCR软件识别求解,顺利解决了该问题。
【关键词】电子图书利用;PDF图像;EXCEL文档;OCR识别
1 引言
电子图书又称e-book,是指以数字代码方式将图、文、声、像等信息存储在磁、光、电介质上,通过计算机或类似设备使用,并可复制发行的大众传播体。类型有:电子图书、电子期刊、电子报纸和软件读物等。
电子图书是未来的一种发展趋势。读者在利用电子图书时会出现很多的问题。这些问题可分为两类,一类是容易解答的,像浏览器要升级、阅读器的下载安装等属于这类;另一类是难于解答的,如表格式PDF图像转换成可编辑的EXCEL文档。
2 求解过程
从事读者服务工作的馆员大多是搜索高手,网络达人,解决此类问题似乎不难。利用搜索引擎,如百度、谷歌。
2.1 将PDF转换成EXCEL的工具
笔者以“pdf”和“转换EXCEL”为关键词,在百度中搜索,选择前10页的搜索结果进行验证,无论是在线转换工具,转换软件,经验方法等都不可行。转换出现以下情况:
2.1.1 完全不能转换;
2.1.2 转换后乱码;
2.1.3 软件、方法都不存在,骗点击率的网站;
2.1.4 一定要具有EXCEL典型特征的PDF文件才可以转换;
2.1.5 PDF有加密不能转换;
2.1.6 收费软件。
非常明显,第1-3情况不符合要求,第4-6种情况设有条件,但作者满足其条件后,转换仍然没有成功。
2.2 将表格式PDF转换成第三方格式,再将第三方格式转换成EXCEL。
笔者采用了两种方法,第一种是电子图书自带的工具,如文字摘录、文本选择、剪切等工具将表格式PDF内容粘贴到WORD或者TXT文档中,出现如图1结果
图1中有表格线,也有文字,文字可以编辑,但表格线只能删除或插入字符,不可完全编辑,方法不可行。
第二种方法是将表格式PDF转换成WORD等第三方文件,再将第三方文件转换成EXCEL。将表格式PDF转换成第三方文件过程中出现以下情况:
2.2.1 加密表格不能转换
2.2.2 竖排表格转换后乱码
2.2.3 转换后仍旧是图像文件,不可编辑。
因达不到可编辑要求,转换失败。
2.3 用OCR软件识别后,输出EXCEL。
笔者采用最有代表性的汉王PDF OCR软件进行识别,识别后可输出TXT、RTF、HTML、XLS四种格式的文件,转换成功。
3 方法步骤
3.1 将电子图书中的表格扫描成PDF文档。如果电子图书是PDF格式的,则直接保存即可。
3.2 下载安装免费的汉王PDF OCR软件,笔者用的是8.1.0.3版本,打开软件菜单栏“帮助/自动更新”并运行。点击“文件/系统配置”,在“设置系统参数”对话框中选择“识别”标签,并将“自动倾斜校正”前的小框勾上,然后“确定”
3.3 在OCR软件中选择“文件/打开图像”,将需转换的PDF文件打开,出现界面,如图2:
3.4 在软件界面右下出现PDF文件原稿,在原稿区域拖动鼠标成一个矩形框,将原稿所有内容包含在矩形框内。在快捷工具栏选择“表格/开始识别”。识别结果如图3
3.5 在原稿上方,出现识别结果。将鼠标移到识别结果区域,软件会将原稿与识别结果自动对照,人工介入能方便快捷地将识别结果进行修改更正。
3.6 选择菜单栏“输出/到指定格式文件”依次选择“保存路径”,填入输出的文件名称,选择XLS文件类型,点击“保存”,将在指定路径下输出XLS格式的指定文件即转换成功。
4 注意事项
4.1 如果表格式PDF图像中没有网格线,在3.4步骤应根据表格是横向还是纵向相应选择“横栏”或“竖栏”后进行识别,否则识别不能进行。如图4
4.2 表格式PDF图像若没有网格线,在3.6步骤选择文件保存类型时,不能选择XLS类型,而应选择TXT或RTF文件类型,如图五
4.3 如果输出文件类型为RTF(即WORD)应将WORD文档中每个字段区分开来,转换成TXT(记事本)文件后,再将TXT文件转成EXCEL.
5 优缺点
5.1 本方法使用的软件都是可公开获取的免费软件,或是系统自带软件,不存在收费陷阱。
5.2 PDF原件无论是否加密,都可以识别。
5.3 无论是否具有EXCEL典型特征的PDF原件均可以转换。支持文本方式与表格方式的混排,识别不受影响,如果是原件是混排文档,在输出文件类型时,应选择TXT或RTF文件类型,不能直接选择XLS文件类型,TXT或RTF文件可以很方便地转换为EXCEL文件。
5.4 横排或竖排PDF表格均可识别。
5.5 识别后生成标准的RTF、EXCEL、HTM或TXT文件,编辑和利用非常方便。
5.6 缺点是识别会有少量错误产生,需要人工介入修改。
6 结论
通过汉王PDF OCR识别和RTF、TXT、EXCEL的格式转换,将表格式PDF图像转换成可编辑的EXCEL文档,这一方法是可行和可靠的,它不再对PDF原稿有种种要求,虽在识别时有少许错误需要人工修改,但总体瑕不掩瑜,对电子图书的推广应用,对借鉴和使用大量PDF表格的读者,是非常实用和高效的。
参考文献:
[1]百度百科.电子图书[EB/OL].http://baike.baidu.com/link?url=FvTLUBW7LXi3mxifh7hULpVuX3JzzGYfztata9YQou0griT0HCteSBzoYXweFLSA
[2]怎样将PDF格式转成EXCEL格式[EB/OL].http://jingyan.baidu.com/article/0eb457e55d69fe03f1a9052f.html
[3]汉王PDF OCR 80[EB/OL].http://online.hanvon.com/ocr80/ad/html/Online%20help/HwPdfOcr80.htm
【关键词】电子图书利用;PDF图像;EXCEL文档;OCR识别
1 引言
电子图书又称e-book,是指以数字代码方式将图、文、声、像等信息存储在磁、光、电介质上,通过计算机或类似设备使用,并可复制发行的大众传播体。类型有:电子图书、电子期刊、电子报纸和软件读物等。
电子图书是未来的一种发展趋势。读者在利用电子图书时会出现很多的问题。这些问题可分为两类,一类是容易解答的,像浏览器要升级、阅读器的下载安装等属于这类;另一类是难于解答的,如表格式PDF图像转换成可编辑的EXCEL文档。
2 求解过程
从事读者服务工作的馆员大多是搜索高手,网络达人,解决此类问题似乎不难。利用搜索引擎,如百度、谷歌。
2.1 将PDF转换成EXCEL的工具
笔者以“pdf”和“转换EXCEL”为关键词,在百度中搜索,选择前10页的搜索结果进行验证,无论是在线转换工具,转换软件,经验方法等都不可行。转换出现以下情况:
2.1.1 完全不能转换;
2.1.2 转换后乱码;
2.1.3 软件、方法都不存在,骗点击率的网站;
2.1.4 一定要具有EXCEL典型特征的PDF文件才可以转换;
2.1.5 PDF有加密不能转换;
2.1.6 收费软件。
非常明显,第1-3情况不符合要求,第4-6种情况设有条件,但作者满足其条件后,转换仍然没有成功。
2.2 将表格式PDF转换成第三方格式,再将第三方格式转换成EXCEL。
笔者采用了两种方法,第一种是电子图书自带的工具,如文字摘录、文本选择、剪切等工具将表格式PDF内容粘贴到WORD或者TXT文档中,出现如图1结果
图1中有表格线,也有文字,文字可以编辑,但表格线只能删除或插入字符,不可完全编辑,方法不可行。
第二种方法是将表格式PDF转换成WORD等第三方文件,再将第三方文件转换成EXCEL。将表格式PDF转换成第三方文件过程中出现以下情况:
2.2.1 加密表格不能转换
2.2.2 竖排表格转换后乱码
2.2.3 转换后仍旧是图像文件,不可编辑。
因达不到可编辑要求,转换失败。
2.3 用OCR软件识别后,输出EXCEL。
笔者采用最有代表性的汉王PDF OCR软件进行识别,识别后可输出TXT、RTF、HTML、XLS四种格式的文件,转换成功。
3 方法步骤
3.1 将电子图书中的表格扫描成PDF文档。如果电子图书是PDF格式的,则直接保存即可。
3.2 下载安装免费的汉王PDF OCR软件,笔者用的是8.1.0.3版本,打开软件菜单栏“帮助/自动更新”并运行。点击“文件/系统配置”,在“设置系统参数”对话框中选择“识别”标签,并将“自动倾斜校正”前的小框勾上,然后“确定”
3.3 在OCR软件中选择“文件/打开图像”,将需转换的PDF文件打开,出现界面,如图2:
3.4 在软件界面右下出现PDF文件原稿,在原稿区域拖动鼠标成一个矩形框,将原稿所有内容包含在矩形框内。在快捷工具栏选择“表格/开始识别”。识别结果如图3
3.5 在原稿上方,出现识别结果。将鼠标移到识别结果区域,软件会将原稿与识别结果自动对照,人工介入能方便快捷地将识别结果进行修改更正。
3.6 选择菜单栏“输出/到指定格式文件”依次选择“保存路径”,填入输出的文件名称,选择XLS文件类型,点击“保存”,将在指定路径下输出XLS格式的指定文件即转换成功。
4 注意事项
4.1 如果表格式PDF图像中没有网格线,在3.4步骤应根据表格是横向还是纵向相应选择“横栏”或“竖栏”后进行识别,否则识别不能进行。如图4
4.2 表格式PDF图像若没有网格线,在3.6步骤选择文件保存类型时,不能选择XLS类型,而应选择TXT或RTF文件类型,如图五
4.3 如果输出文件类型为RTF(即WORD)应将WORD文档中每个字段区分开来,转换成TXT(记事本)文件后,再将TXT文件转成EXCEL.
5 优缺点
5.1 本方法使用的软件都是可公开获取的免费软件,或是系统自带软件,不存在收费陷阱。
5.2 PDF原件无论是否加密,都可以识别。
5.3 无论是否具有EXCEL典型特征的PDF原件均可以转换。支持文本方式与表格方式的混排,识别不受影响,如果是原件是混排文档,在输出文件类型时,应选择TXT或RTF文件类型,不能直接选择XLS文件类型,TXT或RTF文件可以很方便地转换为EXCEL文件。
5.4 横排或竖排PDF表格均可识别。
5.5 识别后生成标准的RTF、EXCEL、HTM或TXT文件,编辑和利用非常方便。
5.6 缺点是识别会有少量错误产生,需要人工介入修改。
6 结论
通过汉王PDF OCR识别和RTF、TXT、EXCEL的格式转换,将表格式PDF图像转换成可编辑的EXCEL文档,这一方法是可行和可靠的,它不再对PDF原稿有种种要求,虽在识别时有少许错误需要人工修改,但总体瑕不掩瑜,对电子图书的推广应用,对借鉴和使用大量PDF表格的读者,是非常实用和高效的。
参考文献:
[1]百度百科.电子图书[EB/OL].http://baike.baidu.com/link?url=FvTLUBW7LXi3mxifh7hULpVuX3JzzGYfztata9YQou0griT0HCteSBzoYXweFLSA
[2]怎样将PDF格式转成EXCEL格式[EB/OL].http://jingyan.baidu.com/article/0eb457e55d69fe03f1a9052f.html
[3]汉王PDF OCR 80[EB/OL].http://online.hanvon.com/ocr80/ad/html/Online%20help/HwPdfOcr80.htm