搜档网
当前位置:搜档网 › 图片文字提取方法大全

图片文字提取方法大全

图片文字提取方法大全
图片文字提取方法大全

光学字符识别技术OCR(Optical Character Recognition的简称),是自动识别技术研究和应用中的一个重要领域,我们识别图片中的文字,用的就是OCR

技术。

目前有很多OCR识别软件,例如Office Document Imaging、汉王OCR,清华紫光OCR、尚书6号等等。但需要注意,通常OCR软件只能够识别比较规范的印刷体,手写文本目前在识别上仍有困难。

下面简单介绍一下几款OCR识别软件及使用方法。

方法一、利用Office Document Imaging 提取文字

Office在2003版中增加了Document Imaging工具,用它可以把文字给“抠”出来。注意:Microsoft Office Document Imaging不是Office 2003默认的安装选项,初次启用时,如果该组件未安装,则需要插入Office的安装光盘进行安装。

使用方法

1、在“文件”中打开图片,若是提取扫描仪中的印刷品文字,选择“扫描新文档”,即可将印刷品的文字扫描到电脑上。

2、工具-->使用OCR识别文本,OCR识别程序就会对图片进行识别,完成后选择:工具-->将文本发送到Word ,程序会自动打开Word文档,展现在你面前的就是从图片中“抠”出来的文字。

注意事项

1、若图片中是英文,可在工具-->选项-->OCR-->OCR 语言,选择english,再进行识别。

2、Office Document Imaging只支持MDI、TIF等图片格式。如需识别其他格式的图片,需要利用图片处理软件转换一下,或者利用Office Document Imaging 组件中的“Microsoft Office Document Imaging Writer”的虚拟打印机,将图片打印成一个MDI文件,然后再进行识别。

方法二、使用文字识别工具提取文字

1、清华紫光OCR用法简介

1)打开带有文字的图片,根据所要提取的文字进行裁剪(如果是电子书籍,可按下“Print Screerl”屏幕捕获键将其保存为图片)。

2)启动紫光OCR,打开已裁减的图片,用鼠标在图片中绘制出待识别的文字区域,按下工具栏“识别”按钮即可。文字识别结束后,会自动在一个文本编辑器中打开已提取文字,将结果复制粘贴至其他文档中即可。

2、尚书六号用法简介

1)进入"尚书六号"的界面,界面如下:

1

2)导入需要提取的图片,点击"文件",选择"打开图象页"

选择刚才保存的sample.jpg并点击"打开"

3)点击识别,开始进行识别

"尚书六号"自动识别的三个选框

4)提取文字并保存文本

3

相关主题