百度发布新一代文字识别AI模型PP-OCRv5,仅0.07B,部分测试超GPT-4o
创始人
2025-09-14 09:43:39
0

IT 之家 9 月 13 日消息,百度于 9 月 10 日在 Hugging Face 发布新一代文字识别解决方案 PP-OCRv5

百度介绍称,PP-OCRv5 是一个为缓解大型视觉语言模型(VLMs)局限性而设计的专用 OCR 模型,它提供了一种高效、准确且轻量级的解决方案

PP-OCRv5 通过保持模块化、两阶段的流程,专门针对高速、精确的文本检测和识别,解决了大型 VLMs 的精确文本定位和边界框精度局限性问题。

PP-OCRv5 的亮点如下:

效率:该模型参数量仅为 0.07B,能够在 CPU 和边缘设备上实现更高性能,其移动版本在英特尔 Xeon Gold 6271C CPU 上每秒可处理超过 370 个字符。

性能:PP-OCRv5 在 OCR 特定基准测试中优于通用型 VLM 模型,如 Gemini 2.5 Pro、Qwen2.5-VL 和 GPT-4o,包括手写和印刷的中英文以及拼音文本。

定位:PP-OCRv5 旨在提供精确的文本行边界框坐标,这对于结构化数据提取和内容分析是关键要求。

多语言支持:该模型支持五种文字类型 —— 简体中文、繁体中文、英文、日文和拼音,并能识别超过 40 种语言。

PP-OCRv5 由四个核心组件构成:

图像预处理:处理图像的旋转和畸变,以标准化输入。

文本检测:识别图像中文本行的精确位置。

文本行方向:分类检测到的文本方向,以确保其正确对齐以进行识别。

文本识别:将每行文本中的字符解码为文本字符串。

相关内容

热门资讯

原创 人... 一台超级计算机给出了一个让人脊背发凉的数字——2.5亿年。这不是科幻小说里的桥段,而是英国布里斯托大...
8GB内存也能流畅运行,微软T... IT之家 6 月 17 日消息,科技媒体 Windows Latest 昨日(6 月 16 日)发布...
中国国产大功率双转子发动机实现... 中新社哈尔滨6月17日电 (记者 王妮娜)东安动力首台双转子增压发动机R10TE17日在哈尔滨成功点...
博睿康冲刺脑机接口第一股,如何... (文/万肇生 编辑/张广凯) 中国脑机接口赛道的第一张上市门票,可能要被一家尚未盈利的医疗器械公司拿...
宇树VS智元:旗舰店里的机器人... 《科创板日报》6月17日讯(记者 李佳怡)比iPhone还便宜的具身智能,从实验室走进商场。 5月3...
北航举行毕业典礼,校长王云鹏寄... 新京报讯(记者刘洋)“当人的经验和判断皆可被数字化,我们与机器的本质区别何在?”6月16日,北京航空...
用了钉钉或企业微信,企业还有必... 随着越来越多的企业完成移动办公数字化的第一步,钉钉、企业微信等公有云协同工具已经深入到日常的审批通知...
当贝Air1S通话录音适合什么... iPhone用户应该都懂一个痛:手机换了五六代,通话录音这个功能就是不给。 iOS 18.1之后苹果...
道验机亲测不踩雷,这个二手手机... 哪个二手手机平台检测最严?我投旧猫二手优品一票,亲测56道验机真不是吹的 说实话,在二手手机这个圈子...
阿里把千问塞进机器人身体里 6月16日,阿里发布了千问具身智能大模型Qwen-Robot系列,一口气拿出了三个模型:一个负责操作...