发布时间:2025-12-09 16:59:42 浏览次数:4
1、文通(http://www.wintone.com.cn/a/prods/netocr/)
北京文通科技有限公司是享誉国内外的OCR(光学字符识别)技术生产商、文档影像技术和应用解决方案提供商。经过多年的创新与发展,文通科技现已成长为国内知名的高新技术企业,在全国十余个城市建立了分支机构,公司产品涉及多个领域。真正能把中文OCR做得比较专业的,一共也没几家,国内2家,国外2家。国内是文通和汉王,国外是ABBYY和IRIS(台湾原来有2家丹青和蒙恬,这两年没什么动静了)。像大家提到的紫光OCR、CAJViewer、MS Office、清华OCR、包括慧视小灵鼠,这些都是文通的产品或者使用文通的识别引擎,尚书则是汉王的产品,和中晶扫描仪捆绑销售的。这两家的中文识别率都是非常不错的。而国外的2家,主要特点是西方语言的识别率很好,而且支持多种西欧语言,产品化程度也很高,不过中文方面速度和识别率还是有差距的,当然这两年人家也是在不断进步。Google的开源项目(Tesseract ),至少在中文方面,和这些家相比,各项性能指标水平差距还蛮大的呢
| 名称 | 支持平台 | 编程语言 | 字体语言 | 输出格式 | 备注 |
| Tesseract | Windows/MacOSX /Linux | C++, C | 40+ | 文本,hOCR,其他 | 开源,支持中文 |
| ExperVisionTypeReader | Windows/MacOSX | C/C++ | 21 | hOCR | 多次获奖;不支持中文 |
| ABBYY FineReader | Windows/MacOSX /Linux | C/C++ | 198 | DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 | 世界排名第一;识别精度达99%; |
| LEADTOOLS | Windows/MacOSX /Linux | C/C++, .NET, Objective-C, Java, JavaScript | 56 | PDF, PDF/A, DOC, DOCX, XLS, XPS, RTF, HTML, ANSI Text, Unicode Text, CSV | 支持拉丁语, 亚洲语言,阿拉伯语,MICR字符集;支持整页或者部分区域的OCR识别; |
| CuneiForm/OpenOCR | Windows/MacOSX /Linux | C/C++ | 28 | ? | 企业级系统,可以保存文本格式,并识别结构的复杂表格 |
| Image to OCR Converter | Windows | C/C++, VB , .NET | 40 | PDF, Word, HTML, Text | 读取的图像格式和PDF文件,并可以从照相机扫描图像 |
| Dynamsoft OCR SDK | Windows | C/C++ | 40+ | PDF, TXT | - |
| Puma.NET | Windows | C# | 28 | ? | - |