我起初也不知道OCR是什么意思,当时,我在把一些规范做成CHM格式的,有时候拿到的PDF或者扫描的规范,里面的文本文字是不能直接复制的。通过过其他人,问到了关于PDF或者扫描的识别文字问题,他说我可以找OCR文字识别软件,我说OCR是什么意思?听我们慢慢道来。
来自百度百科的解释:
所谓OCR (Optical Character Recognition光学字符识别)技术,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
由于OCR是一门与识别率拔河的技术,因此如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。而根据文字资料存在的媒体介质不同,及取得这些资料的方式不同,就衍生出各式各样、各种不同的应用。
中文OCR
光学符号识别技术是一种汉字文稿的自动输入方式,它通过光学扫描仪和计算机的配合,经OCR软件将图像数据进行运算分类后,将图像数据转化为计算机内码,可以极大减轻数据录入工作的强度,提高数据录入的速度。
文献资料的数字化录入,一般分为:
1、纯图像方式。
2、目录文本、正文图像方式。
3、全文本方式。
4、全文索引方式。文本方式和图像方式的混合体。
我国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究,70年代末开始进行汉字识别的研究,到1986年汉字识别的研究进入一个实质性的阶段,不少研究单位相继推出了中文OCR产品。
我国目前使用的文本型OCR软件主要有清华文通TH-OCR、北信BI-OCR、中自ICR、沈阳自动化所SY-OCR、北京曙光公司NI-OCR(已被中自汉王并购)等,匹配的扫描仪则使用市面上的平板扫描仪。


1楼 yyyyyyyy
Post:2010-7-1 11:13:17
2楼 yyyyyyyy
Post:2010-7-1 11:14:05
3楼 老七
Post:2010-7-1 11:24:04
4楼 阿普雷
Post:2010-7-1 15:00:35
5楼 geuro
Post:2010-7-1 15:58:59
谢谢啦
6楼 winw
Post:2010-7-1 16:19:05
7楼 小叶榄仁
Post:2010-7-1 16:19:33
8楼 北京地下室出租
Post:2010-7-1 16:23:12
9楼 猫哥
Post:2010-7-1 19:39:36
10楼 平平
Post:2010-7-1 20:44:13
11楼 智姐
Post:2010-10-11 19:01:14