二、 谷歌对编程Agent出手,推出Gemini CLI业界最高免费限额
1. 谷歌推出开源免费的Gemini CLI,支持在终端访问Gemini,提供百万上下文窗口和每天1000次的高额免费使用限额;
2. 功能全面,支持代码理解、GitHub集成、多模态操作、MCP调用(Imagen、Veo等)以及谷歌搜索;
3. 采用Apache 2.0开源协议,安装简便,只需Node.js环境,已引发开发者社区热议,GitHub仓库标星迅速增至10.8k。
三、 快手全球首部AI单元故事集《新世界加载中》北京举行首映礼
1. 快手与星芒短剧联合推出全球首部AI单元故事集《新世界加载中》,包含7部不同题材的单元剧,总时长180分钟;
2. 作品利用可灵AI实现了从剧本创作到发行的全流程AI融合,解决了人物与风格一致性、口型匹配、复杂场景等技术难题;
3. 标志着AI影视内容创作进入2.0时代,快手将持续加大对AIGC微短剧的投入,解决微短剧行业产能与创意瓶颈。
四、 “AI语音之王”科大讯飞声音复刻技术大升级,成品人机难辨?
1. 科大讯飞升级声音复刻技术,仅需不到10秒音频素材即可高度还原音色、停顿和口头禅,人机难辨;
2. 采用"三阶段层次化语音建模框架",通过星火底座大模型捕捉发音规律,解耦重构声学特征,恢复高保真波形;
五、 小米 AI 眼镜,年轻人的第一副智能眼镜? 与Ray-Ban相似
1. 小米发布首款AI智能眼镜,采用经典威灵顿式D型方框设计,重量仅40-60克,提供黑色、玳瑁棕和鹦鹉绿三种配色;
2. 搭载1200万像素IMX681传感器,支持2K视频录制和EIS防抖,可用于视频通话和直播,已与B站、抖音等平台合作;
六、 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术开源
1. 快手发布并开源多模态大语言模型Kwai Keye-VL-8B,展现优异的视频理解和推理能力;
2. 模型采用600B大规模数据训练,通过四阶段渐进式预训练策略和创新的两阶段推理能力强化,实现复杂视觉感知与逻辑思考;
3. 在短视频理解方面表现尤为突出,VideoMME评测得分67.4分超越竞品,内部短视频场景评测领先SOTA模型超10%。
七、 Meta挖走OpenAI三名多模态AI专家,曾任职谷歌DeepMind
1. Meta成功从OpenAI挖走三名多模态AI专家:卢卡斯·拜尔、亚历山大·科列斯尼科夫和翟晓华,他们被称为"CV铁三角";
2. 这三位专家此前曾在谷歌DeepMind任职,去年底才被OpenAI挖走组建苏黎世分部,负责多模态AI研发;
3. 扎克伯格亲自参与AI人才招募,为超级智能研发团队开出高达1亿美元薪酬,同时投资143亿美元给Scale AI并聘用其CEO汪滔领导新团队。
八、 CV大牛、MIT何恺明正式官宣入职谷歌,担任杰出科学家
1. 计算机视觉大牛何恺明正式加入谷歌DeepMind担任杰出科学家,同时保留MIT终身副教授身份;
2. 何恺明是ResNet之父,其论文被引用超71万次,曾获CVPR、ICCV等多个最佳论文奖,此前任职微软亚研院和Meta FAIR共计12年;
3. 今年研究成果丰硕,包括与Yann LeCun合作的无归一化Transformer、分形生成模型和MeanFlow一步生成框架。
前沿科技
九、 谷歌AlphaGenome横空出世!40亿年生命代码一键破解
1. 谷歌DeepMind发布AI工具AlphaGenome,能一次读取100万DNA碱基,精准预测基因突变影响,填补解读DNA非编码区域空白;
2. 模型采用层次化架构,兼具长序列与高分辨率优势,24项评估中22项超越现有模型,能同时预测多种分子特性,实现RNA剪接点直接预测;
3. AlphaGenome将加速疾病机理研究、合成生物学和基因组功能解析,为理解罕见遗传病和癌症提供关键工具,推动生物学进入可编程时代。
报告观点
十、 比尔·盖茨等新播客:AI将如何重塑医疗健康及医学研究的未来
1. 比尔·盖茨认为AI可在医疗场景发挥重要作用,既能辅助医生处理文书工作、记录诊断,也能在患者离开后继续提供服务,但目前诊断决策仍应由医生做出;
2. OpenAI研究负责人Bubeck指出AI诊断准确率已达90%,超过医生的75%,但医生使用AI后仅提升至80%,表明关键在于人机协作方式和界面设计;
3. 对于AI在医疗领域的未来,专家预测近两年将出现大量试点项目,AI将优先应用于医疗资源匮乏地区,但完全取代医生尚需时间,专业化训练和解决监管问题是关键挑战。
👇加入AGI数据库,AI智能问答