百度发布新一代文字识别AI模型PP-OCRv5,仅0.07B,部分测试超GPT-4o
创始人
2025-09-14 09:43:39
0

IT 之家 9 月 13 日消息,百度于 9 月 10 日在 Hugging Face 发布新一代文字识别解决方案 PP-OCRv5

百度介绍称,PP-OCRv5 是一个为缓解大型视觉语言模型(VLMs)局限性而设计的专用 OCR 模型,它提供了一种高效、准确且轻量级的解决方案

PP-OCRv5 通过保持模块化、两阶段的流程,专门针对高速、精确的文本检测和识别,解决了大型 VLMs 的精确文本定位和边界框精度局限性问题。

PP-OCRv5 的亮点如下:

效率:该模型参数量仅为 0.07B,能够在 CPU 和边缘设备上实现更高性能,其移动版本在英特尔 Xeon Gold 6271C CPU 上每秒可处理超过 370 个字符。

性能:PP-OCRv5 在 OCR 特定基准测试中优于通用型 VLM 模型,如 Gemini 2.5 Pro、Qwen2.5-VL 和 GPT-4o,包括手写和印刷的中英文以及拼音文本。

定位:PP-OCRv5 旨在提供精确的文本行边界框坐标,这对于结构化数据提取和内容分析是关键要求。

多语言支持:该模型支持五种文字类型 —— 简体中文、繁体中文、英文、日文和拼音,并能识别超过 40 种语言。

PP-OCRv5 由四个核心组件构成:

图像预处理:处理图像的旋转和畸变,以标准化输入。

文本检测:识别图像中文本行的精确位置。

文本行方向:分类检测到的文本方向,以确保其正确对齐以进行识别。

文本识别:将每行文本中的字符解码为文本字符串。

相关内容

热门资讯

原创 美... 最近,中美之间又因为“钱袋子”的事较上劲了——这次的主角是港口费。10月10日,中国宣布对美国船舶收...
2025“数据要素 ×” 大赛... 近日,2025年 “数据要素 ×” 大赛陕西省分赛圆满落幕,由汉中移动联合超级码科技股份公司打造的秦...
企业网站建设如何抓住数字化转型... 在当今数字化浪潮席卷全球的时代,企业数字化转型已成为必然趋势。企业网站作为企业在互联网上的重要窗口,...
一文读懂Sora2核心点-中信... Sora2作为OpenAI推出的AI视频生成产品,凭借技术突破与产品创新,开启了AI视频生成千亿级市...
节后首个交易日融资余额大增50... 深圳商报·读创客户端记者 钟国斌 国庆长假后,杠杆资金入市热情升温。据交易所最新数据统计,截至10月...
载人登月“进度条”持续刷新 长征十号系列运载火箭第二次系留点火试验。 张馨方摄 近日,我国在文昌航天发射场成功组织实施长征十号系...
国家发展改革委将多措并举支持企... 来源:环球时报 本文转自【新华社】 民营企业是推动人工智能发展的重要力量。记者从国家发展改革委获悉,...
我国科研人员解决 全固态金属锂... 转自:贵州日报 新华社北京10月7日电 记者从中国科学院物理研究所获悉,由该所研究员黄学杰团队联合华...
沙钢:50年“创新长跑”炼就新... 本报记者 朱 程 在江苏省张家港市,江苏沙钢集团有限公司已扎根50年。50年来,这家曾经的大集体企...
2025年诺贝尔自然科学奖揭晓 10月6日至8日,2025年诺贝尔自然科学奖相继揭晓。 10月6日,2025年诺贝尔生理学或医学奖授...