论文部分内容阅读
当你碰到经“防下载”处理过的网页而无法复制出其中的文字信息时,当你想COPY出“版权所有”的某段电子书中的文字信息时,当你面对领导指派的一大摞纸质打印文件而被要求次日务必要完成二次编辑并打印时……遇到这一类情况最直接的想法就是求助于扫描识别技术,不过也不必任何第三方软件的介入,只要你的操作系统中安装了办公软件Office 2003,一切都可以轻松搞定!
1.准备工作:对于网页和电子书文件,我们可以先用抓图软件(如SnagIt)先抓成图片文件保存下来(直接抓取成文字的识别率往往不是很高);对于纸质文件,必须要用扫描仪(或数码相机)先形成BMP位图文件。第二步的准备工作就是用Windows自带的画图程序打开待处理的图片文件,先按Ctrl-A组合键全选,再Ctrl-C组合键复制,待用。
2.单击打开“开始”-“所有程序”-“Microsoft Office”-“Microsoft Office工具”-“Microsoft Office Document Scanning”(如图1),接着再到控制面板中双击其中的“打印机和传真”,此时就会比原来多出一个名为“Microsoft Office Document Image Writer”的虚拟打印机,在上面右击选择“设为默认打印机”(如图2)。
3.打开Word 2003,按一次Ctrl-V组合键,将准备工作中复制待用的图片粘贴进来。接着再执行“文件”-“打印”菜单命令,从弹出的“打印”窗口中可以看到刚刚添加的虚拟打印机已经处于待选位置(如图3),单击确定按钮后会弹出“另存为”窗口,默认保存的文件类型是“Microsoft Document Imaging格式(*.mdi)”,设置好路径再单击“保存”按钮。
4.此时,Office 2003就会自动调用“Microsoft Office Document Imaging”程序来打开这个MDI文件,接着用鼠标拖动的方法选中想要识别的文字内容部分(会出现红色的矩形框),再单击“工具”-“将文本发送到Word”(如图4),系统就会提示“必须在执行此操作前重新运行OCR”,点击“确定”按钮进行OCR文字的识别。完成后会自动弹出一个同名的Word文件,看一下,绝大部分的内容已经转换出来了,此时只须对照原稿进行个别识别错误的文字或字母的更改调整就OK了。
1.准备工作:对于网页和电子书文件,我们可以先用抓图软件(如SnagIt)先抓成图片文件保存下来(直接抓取成文字的识别率往往不是很高);对于纸质文件,必须要用扫描仪(或数码相机)先形成BMP位图文件。第二步的准备工作就是用Windows自带的画图程序打开待处理的图片文件,先按Ctrl-A组合键全选,再Ctrl-C组合键复制,待用。
2.单击打开“开始”-“所有程序”-“Microsoft Office”-“Microsoft Office工具”-“Microsoft Office Document Scanning”(如图1),接着再到控制面板中双击其中的“打印机和传真”,此时就会比原来多出一个名为“Microsoft Office Document Image Writer”的虚拟打印机,在上面右击选择“设为默认打印机”(如图2)。
3.打开Word 2003,按一次Ctrl-V组合键,将准备工作中复制待用的图片粘贴进来。接着再执行“文件”-“打印”菜单命令,从弹出的“打印”窗口中可以看到刚刚添加的虚拟打印机已经处于待选位置(如图3),单击确定按钮后会弹出“另存为”窗口,默认保存的文件类型是“Microsoft Document Imaging格式(*.mdi)”,设置好路径再单击“保存”按钮。
4.此时,Office 2003就会自动调用“Microsoft Office Document Imaging”程序来打开这个MDI文件,接着用鼠标拖动的方法选中想要识别的文字内容部分(会出现红色的矩形框),再单击“工具”-“将文本发送到Word”(如图4),系统就会提示“必须在执行此操作前重新运行OCR”,点击“确定”按钮进行OCR文字的识别。完成后会自动弹出一个同名的Word文件,看一下,绝大部分的内容已经转换出来了,此时只须对照原稿进行个别识别错误的文字或字母的更改调整就OK了。