谷歌Gemini新技能:AI深度解析网页,RAG技术迎来新挑战
创始人
2025-09-04 07:00:42
0

谷歌在其AI技术的征途上迈出了新的一步,这次它瞄准的是让AI能够像人类一样“阅读”网页内容。这一创新体现在Gemini API最新推出的URL Context功能上,该功能于5月28日在Google AI Studio中首次亮相。

据谷歌产品负责人Logan Kilpatrick介绍,URL Context是他极为推崇的Gemini API工具,他甚至建议用户将其设置为默认开启的便捷选项。那么,这一功能与日常将链接直接丢进AI对话框中相比,有何本质不同呢?

关键在于处理深度和工作机制的不同。以往,当我们向AI发送链接时,它通常通过通用的浏览工具或搜索引擎插件来“浏览”网页,可能只读取了网页的摘要或部分文本。而URL Context则是一个专为开发者设计的编程接口(API),当开发者在程序中调用此功能时,它会指示Gemini将URL中的全部内容(上限为34MB)作为回答下一个问题的唯一且权威的上下文。Gemini会进行深入的文档解析,全面理解文档的结构、内容和数据。

URL Context的能力清单令人印象深刻:它能深度解析PDF中的表格、文本结构乃至脚注;能处理PNG、JPEG等图片,并理解其中的图表和图示;还支持HTML、JSON、CSV等多种网页文件格式。

在Google AI Studio中,开发者可以直接体验这一功能,官方API文档也提供了详细的配置教程。一篇发表在Towards Data Science上的文章对URL Context Grounding给予了高度评价,作者Thomas Reid甚至将其视为给RAG(检索增强生成)技术的又一重击。

RAG技术过去几年中一直是提升大语言模型回答准确性、时效性和可靠性的主流手段。由于大模型的知识局限于其训练数据,RAG通过引入外部知识库来提供最新、最具体的信息。然而,传统的RAG流程相对复杂,包括内容提取、分块、矢量化、存储、检索以及增强与生成等多个步骤。

相比之下,URL Context Grounding省去了这些繁琐的步骤。对于处理公开网络内容这一常见场景,它提供了一个极为简洁的替代方案。开发者无需再花费大量时间和精力去搭建和维护一个由多个组件组成的复杂管道,只需几行代码就能实现更精准的效果。

例如,Gemini仅凭一个指向特斯拉50页财报PDF的URL,就能准确无误地提取出位于第4页表格中的“总资产”和“总负债”数据,这是仅靠摘要无法完成的任务。在PDF的末尾,有一封写给即将离职员工的信,其中退出日期被星号标记,屏蔽原因在脚注中给出。URL Context也能准确识别出脚注中的内容。

URL Context采用两步检索流程以平衡速度、成本和对最新数据的访问。当用户提供一个URL时,该工具会首先尝试从内部索引缓存中获取内容以提高速度和成本效益;如果URL不在缓存中,它会进行实时抓取。然而,它也有能力边界:无法访问需要登录或付费的内容;不会涉足有专门API处理的内容(如YouTube视频、Google Docs等);且单次请求最多处理20个URL,单个URL内容上限为34MB。

在价格方面,URL Context的计费方式直观明了:按处理的内容Token数量计费。这意味着开发者需要精确地提供所需的信息源,以避免不必要的成本增加。尽管如此,URL Context的出现并非RAG技术的终结,而是对其应用场景的重新划分。在处理企业内网的海量私有文档、需要复杂检索逻辑和极致安全性的场景中,构建自主可控的RAG系统依然至关重要。

相关内容

热门资讯

Meta被曝开发智能眼镜人脸识... 据雷科技报道,2月14日有外媒披露,Meta正在重新评估为其智能眼镜加入人脸识别功能,最快可能在今年...
中移申请访问控制方法专利,提高... 国家知识产权局信息显示,中移(成都)信息通信科技有限公司、中国移动通信集团有限公司申请一项名为“访问...
《自然》重磅:迄今为止最大的量... 自 20 世纪初量子力学诞生以来,人类对于世界的认知便被撕裂成了两半:微观世界遵循着概率云与叠加态的...
找准央企发展AI定位 更大力度... 人民网北京2月14日电 (记者黄盛)“切实当好智算基础设施的供给者、人工智能赋能千行百业的推动者、产...
东西问丨DeepSeek不爱人... 中新网北京2月14日电(记者 贺劭清 韩禹)近日,国产AI助手深度求索(DeepSeek)因技术升级...
独家|周鸿祎谈Seedance... 提到最近AI圈最火爆的热词,莫过于字节跳动旗下最新视频大模型Seedance. 2月12日,字节跳动...
【新春走基层】这场在济宁举办的... 齐鲁晚报·齐鲁壹点 孔茜 张清直 济宁报道 当2500架无人机携着微光升腾天际,如万千萤火虫点亮深邃...
【窥一斑而知全豹】氩氦刀消融:... 窥一斑而知全豹。一项高精尖技术能否真正落地临床,实现常规化、普遍化、常态化开展,最能体现一家医院的技...
核光钟最后一个核心瓶颈攻克 记者12日从清华大学获悉,该校副教授、北京量子信息科学研究院兼聘研究员丁世谦团队攻克了核光钟研制的“...
(新春见闻)科技融入生活 AI... 中新社长沙2月14日电 (记者 唐小晴)春节前夕,在湖南长沙县一家机器人9S店内,具备按摩、助浴、搬...