论文部分内容阅读
前段时间,我为学校的专业短期培训班编写学习资料,从教材、辅导书中节选的内容都是亲手输入,每天加班加点敲键盘,累得我腰酸背痛,两眼昏花。看到我这样辛苦,小尚递给我一篇《电脑爱好者》10期上的文章《用相机翻拍出完美的文档》,读后我深受启发,赶忙用数码相机对着需要的内容进行拍照。然而当我完成了拍照,把这些照片传入电脑后,一个新的问题又摆在了我的面前,如何编辑这些照片中的文字呢?请教小尚后打开网址http://www.hw99.com/,原来我是万事俱备,只欠“汉王PDF OCR”这个东风。
①用汉王PDF OCR将照片文档打开,根据所要识别的照片文档的内容是简体中文还是繁简混合或是英文,可先进行一下设置。点击“系统设置”,勾选需要的语言(默认是简体中文)。
②如果选中“识别”选项卡中的“自动倾斜校正”,那么在后面的版面分析时,系统会自动校正倾斜的图像文件。
③点击“识别→版面分析”,然后选择“开始识别”,则开始对所拍的照片文档进行字符识别。在识别窗口中看到识别结果的那一刻,我内心高兴极了,终于不用再敲键盘了啊!
④在识别出来的结果中可能会存在一些识别错误,可通过校正修改迅速解决。比如对照下面原图像区里的照片,发现识别窗口中的第二行第一个“律”字应该是“作”字,那么可以点击“律”再选择“作”进行改正。假如没有可选的对应文字,可以手动输入所需要的文字。
⑤一切工作完成后,输出识别结果。点击“输出→到指定格式文件”。
⑥保存类型选择“RTF”格式,使照片文档变身成Word文档,这样就可以根据实际需要进行编辑和排版打印了。
小提示
由于每张照片经过分析识别后,都分别输出为一个Word文档,所以对于多个照片文档,识别并输出后可合并到一个Word文档中进行编辑排版。
二、几点建议
在小尚的帮助下,我顺利体验了纸质资料变身Word文档的全过程,有几点建议送给大家:
其一,在拍照时,最好将资料中的文本、表格、图片分开拍,这样方便在开始识别之前在“工具栏”对图像框的属性做相应的选择,默认图像框的属性是“文本横栏”。
其二,此种方法对于纸质资料的质量、照片的质量要求都较高,如果纸的颜色发黄、照片不清晰等,那么识别效果就不是很好,遇到这样的情况时,最好用图像处理软件将照片文档处理后再进行识别。
其三,平日里阅读纸质报纸、杂志、书籍时遇到想要收集的内容,或者想将过去收集的纸质资料整合时,都可用这个方法将它们变身成为Word文档,然后自由编辑排版。我深深体会到用这样的方法为我节省了大量的时间和精力。
小知识
RTF(Rich Text Format)格式是一种Word能够存取并在多种软件之间通用的文本格式。
OCR(Optical Character Recognition 光学字符识别)技术,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将其翻译成计算机文字的过程。
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
①用汉王PDF OCR将照片文档打开,根据所要识别的照片文档的内容是简体中文还是繁简混合或是英文,可先进行一下设置。点击“系统设置”,勾选需要的语言(默认是简体中文)。
②如果选中“识别”选项卡中的“自动倾斜校正”,那么在后面的版面分析时,系统会自动校正倾斜的图像文件。
③点击“识别→版面分析”,然后选择“开始识别”,则开始对所拍的照片文档进行字符识别。在识别窗口中看到识别结果的那一刻,我内心高兴极了,终于不用再敲键盘了啊!
④在识别出来的结果中可能会存在一些识别错误,可通过校正修改迅速解决。比如对照下面原图像区里的照片,发现识别窗口中的第二行第一个“律”字应该是“作”字,那么可以点击“律”再选择“作”进行改正。假如没有可选的对应文字,可以手动输入所需要的文字。
⑤一切工作完成后,输出识别结果。点击“输出→到指定格式文件”。
⑥保存类型选择“RTF”格式,使照片文档变身成Word文档,这样就可以根据实际需要进行编辑和排版打印了。
小提示
由于每张照片经过分析识别后,都分别输出为一个Word文档,所以对于多个照片文档,识别并输出后可合并到一个Word文档中进行编辑排版。
二、几点建议
在小尚的帮助下,我顺利体验了纸质资料变身Word文档的全过程,有几点建议送给大家:
其一,在拍照时,最好将资料中的文本、表格、图片分开拍,这样方便在开始识别之前在“工具栏”对图像框的属性做相应的选择,默认图像框的属性是“文本横栏”。
其二,此种方法对于纸质资料的质量、照片的质量要求都较高,如果纸的颜色发黄、照片不清晰等,那么识别效果就不是很好,遇到这样的情况时,最好用图像处理软件将照片文档处理后再进行识别。
其三,平日里阅读纸质报纸、杂志、书籍时遇到想要收集的内容,或者想将过去收集的纸质资料整合时,都可用这个方法将它们变身成为Word文档,然后自由编辑排版。我深深体会到用这样的方法为我节省了大量的时间和精力。
小知识
RTF(Rich Text Format)格式是一种Word能够存取并在多种软件之间通用的文本格式。
OCR(Optical Character Recognition 光学字符识别)技术,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将其翻译成计算机文字的过程。
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文