百度发布新一代文字识别AI模型PP-OCRv5,仅0.07B,部分测试超GPT-4o
创始人
2025-09-14 09:43:39
0

IT 之家 9 月 13 日消息,百度于 9 月 10 日在 Hugging Face 发布新一代文字识别解决方案 PP-OCRv5

百度介绍称,PP-OCRv5 是一个为缓解大型视觉语言模型(VLMs)局限性而设计的专用 OCR 模型,它提供了一种高效、准确且轻量级的解决方案

PP-OCRv5 通过保持模块化、两阶段的流程,专门针对高速、精确的文本检测和识别,解决了大型 VLMs 的精确文本定位和边界框精度局限性问题。

PP-OCRv5 的亮点如下:

效率:该模型参数量仅为 0.07B,能够在 CPU 和边缘设备上实现更高性能,其移动版本在英特尔 Xeon Gold 6271C CPU 上每秒可处理超过 370 个字符。

性能:PP-OCRv5 在 OCR 特定基准测试中优于通用型 VLM 模型,如 Gemini 2.5 Pro、Qwen2.5-VL 和 GPT-4o,包括手写和印刷的中英文以及拼音文本。

定位:PP-OCRv5 旨在提供精确的文本行边界框坐标,这对于结构化数据提取和内容分析是关键要求。

多语言支持:该模型支持五种文字类型 —— 简体中文、繁体中文、英文、日文和拼音,并能识别超过 40 种语言。

PP-OCRv5 由四个核心组件构成:

图像预处理:处理图像的旋转和畸变,以标准化输入。

文本检测:识别图像中文本行的精确位置。

文本行方向:分类检测到的文本方向,以确保其正确对齐以进行识别。

文本识别:将每行文本中的字符解码为文本字符串。

相关内容

热门资讯

浙江卫视春晚,周深新歌让博物馆... 今晚(2月17日)19:30,《美好加马·2026浙江卫视春节晚会》将在浙江卫视、Z视介正式拉开帷幕...
火爆!宇树春晚同款机器人售价2... 2月16日晚,2026年央视春晚成为机器人企业的“秀场”,宇树科技、魔法原子、银河通用、松延动力四家...
南京欧标取得面板包角快速切除装... 国家知识产权局信息显示,南京欧标通用配件有限公司取得一项名为“一种面板包角快速切除装置”的专利,授权...
原创 德... 大年初一,德国媒体聚焦某国一年一度的电视盛会,指出这场晚会不仅是一场文艺盛宴,更成为展示该国前沿科技...
(新春见闻)马年春节迎“AI年... 中新社重庆2月17日电 (梁钦卿)马年春节期间,传统年货遇上人工智能,AI产品掀起“科技年货”的消费...
诺泰信取得高通低通双工器专利,... 国家知识产权局信息显示,苏州诺泰信通讯有限公司取得一项名为“一种高通低通双工器”的专利,授权公告号C...
中国石化获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示中国石化(600028)新获得一项实用新型专利授权,专利名为“...
“我们造的机器人上春晚啦!” □ 本报记者 李嘉豪 张宣 “我们造的机器人上春晚啦!”2026年中央广播电视总台春晚开幕,来自江苏...
揭秘关于!指尖四川辅助脚本视频... 您好,指尖四川辅助脚本视频这款游戏可以开挂的,确实是有挂的,需要了解加微【485275054】很多玩...
玩家必看科普!三哥玩摆头可以控... 您好,三哥玩摆头可以控制这款游戏可以开挂的,确实是有挂的,需要了解加微【485275054】很多玩家...