文本识别 OCR 引擎评测

文本识别 OCR 引擎评测

单开一贴,总结下常见 OCR 引擎的识别结果。

2026 年 1 月 29 日 新增百度 PaddleOCR-VL-1.5 的测试结果

2026 年 1 月 28 日 新增测试样本四 Kimi K2.5 和 DeepSeekOCR 2 的测试结果

最新的文档识别准确率:

合合 > Qwen3 VL 8B=PaddleOCR-VL-1.5 > Kimi K2.5 > 谷歌 Gemini 3.0 Preview > 有道 > DeepSeekOCR > DeepSeekOCR 2

====

准确率最高:合合 0.050 元/页

样本四:春秋左传注

测试图片:

1592×2360 679 KB

已校对的正确文本:

expected.txt (2.0 KB)

识别结果:

合合OCR:错 1 个字。

芳 → 𫇭

Qwen3 VL 8B:错 3 个字。

尪 → 尩,儵 → 鯈,鯈 → 儵

PaddleOCR-VL-1.5:错 3 个字。(百度新出的提升巨大,比谷歌的都强了

芴 → 𫇭,涎 → 尩,鯈 → 儵

Kimi K2.5:错 4 个字。

劳 → 𫇭,断 → 斮,儵 → 鯈,儻 → 儵

Gemini 3.0 Preview:错 5 个字。

苏 → 𫇭,黎 → 梨,尫 → 尩,断 → 斮,鲦 → 儵

有道 OCR:错 6 个字。

劳 → 𫇭, 滋 → 澨,尪 → 尩,断 → 斮,籩 → 鯈,籩 → 儵

PaddleOCR-VL: 错 6 个字。

劳 → 𫇭,滋 → 澨,尪 → 尩,断 → 斮,籩 → 鯈,籩 → 儵

DeepSeekOCR:错 8 个字。

苏 → 𫇭,濨 → 澨,濨 → 潘,瓴 → 尩,眇 → 眴,断 → 斮,儵 → 鯈,鯈 → 儵

DeepSeek OCR 2:错 14 个字。#192 楼

苏 → 𫇭,廪 → 庸,廪 → 鹿,滋 → 澨,载 → 戢,佞 → 尩,区 → 陉,冒 → 霄,踦 → 眴, 斩 → 斮,日 → 曰,儋 → 鯈,儋 → 儵,侍 → 俦

PaddleOCR:错 10 个字。

芳 → 𫇭,噬 → 澨,惩 → 尩,逛 → 尩,盼 → 蚡,纷 → 蚡,缺 → 斮,豁 → 谿,惫 → 鯈,倾 → 鯈

上述引擎的识别结果在 #151、#152 、#192、#197、#208楼。

欢迎补充其他软件的识别结果!

样本一:汉语成语源流大辞典

测试图片:1468_0.png.zip (3.2 MB)

PaddleOCR(开源): 生僻字、拼音无法识别,标点符号正确

专(阃)久膺 // 错字:阔

孙(膑)兵法 // 漏字

五(一) // 漏字

分卒守(徼) // 错字:激

二(〇)八 // 错字:O

(缮)甲兵 // 漏字

EasyOCR(开源): 生僻字可以识别,拼音无法识别、标点符号错误很多

袁(枚) // 漏字

排(日)出署 // 错字:月

奕(䜣) // 错字:诉

(汉)墓、(汉)书 、(汉)王、(汉)之粟、 (汉)齐盖庙碑 // 错字:汊

汉(王) // 错字:壬

百度高精度: 生僻字可以识别,拼音漏了两处声调,标点符号正确

奕(䜣) // 错字:诉

孙(膑)兵法 // 漏字

夸克扫描王(阿里): 生僻字识别错误,拼音全对,标点符号正确

专(阃)久膺 //错字:间

奕(䜣) // 错字:诉

扫描全能王(合合): 生僻字可以识别,拼音全对,标点符号正确

奕(䜣) // 错字:诉

二(〇)八 // 错字:O

白描(有道): 生僻字可以识别,拼音全对,标点符号正确

(一) // 错字:-

二(〇)八 // 错字:。

火山引擎: 生僻字可以识别,拼音漏了三处声调,标点符号正确

分卒守(徼) // 错字:微

二(〇)八 // 错字:0

谷歌 AI:生僻字识别错误,拼音全对,标点符号错两处

大(孚)众望 // 漏字

专(阃)久膺 // 漏字

(圣)明洞鉴 // 漏字

九(一) // 错字:-

谷歌AI 8 月新模型:生僻字识别错误,拼音错三处,标点符号错两处

专(阃)久膺 // 错字

九(一) // 错字:-

二(〇)八 // 错字:o

(一)7 // 错字:-

感谢 匿名1664 提供 EasyOCR 的识别结果。

感谢 将作大匠 提供夸克扫描王和扫描全能王的识别结果。

感谢 soso 提供白描的识别结果。

感谢 Chengzhir 提供谷歌 AI 的识别结果。

感谢 random 提供谷歌 AI 8 月新模型的识别结果。

样本二:中国古代史教程

主要任务是测试生僻字的识别。

测试图片:072.jpg.zip (484.3 KB)

0722147×1130 500 KB

合合: 错漏 0 个字,标点符号正确

有道: 错漏 0 个字,标点符号正确

火山引擎: 错漏 0 个字,标点符号正确

谷歌 AI 8月新模型: 2 个错字,标点符号正确

铜(铙) // 错字:饶

(盉) // 错字:盃

百度高精度: 错漏 5 个字,标点符号正确

(甗) // 漏字

铜(铙) // 错字:饶

(觯) // 错字:解

(卣) // 错字:卤

(觥) // 漏字

阿里高精度: 错漏 8 个字,标点符号正确

(鬲) // 漏字

铜(铙) // 错字:饶

(觚) // 错字:缸

(觯) // 错字:鯽

(卣) // 错字:卤

(盉) // 漏字

(觥) // 漏字

(瓿) // 错字:部

上述引擎的识别结果:072.zip (499.6 KB)

样本三:留声机与清末民初的世俗文化

主要任务是测试完整单页的识别。

测试图片:085.jpg.zip (700.1 KB)

此次测试总计 860 个汉字,138 个符号。

合合: 汉字 0 个错误,符号 0 个错误

谷歌AI 8月新模型: 汉字 0 个错误,符号 0 个错误

百度高精度:汉字 0 个错误,符号 2 个错误

阿里高精度:汉字 1 个错误,符号 1 个错误

年 // 幻觉:(全)年

有道:汉字 0 个错误,符号 3 个错误

①②③ // 符号可以识别,出现 3 个错误

火山:汉字 4 个错误,符号 7 个错误

(阶)层 // 错字:防

(时)// 错字:日

(20) // 漏字

(段) // 错字:县没

①②③ // 6 个符号都无法识别

上述引擎的识别结果:085.zip (708.5 KB)

相关推荐

儿女情长的意思
beat365官方app安卓版下载

儿女情长的意思

📅 09-17 👁️ 1703
《怪物猎人世界》王冰咒龙打法简介
365怎么访问

《怪物猎人世界》王冰咒龙打法简介

📅 09-18 👁️ 2791
魅族手机发热发烫原因解析及解决方法!为什么魅族手机会这样?