▲科技赋能,帮助残疾人将声音转化为可持续开发的“数字资产”,残疾人在获得收益的同时,也实现了社会参与。
71 岁的辛女士把水杯放在桌上,走进录音室,轻轻带上门。隔音棉吸走了外面的一切声响。她戴上耳机,凑近话筒。
这是北京市残疾人社会保障和就业服务中心一间录音棚里的一幕。北京灵伴即时智能科技有限公司要为辛女士的声音,训练一个“AI替身”,变成一份可以持续产生收益的“资产”。
辛女士是一位多重残疾人,退休多年。她从小喜欢朗诵,年轻时没机会学。2025年11月,她在社区的微信群里看到一条消息:北京市残联和一家科技公司联合发起“残疾人声音价值传播助残行动”,免费培训,免费录音,帮残疾人把声音变成可以持续产生收益的“数字资产”。辛女士是她所在街道第一个报名的残疾人。
北京灵伴即时智能科技有限公司2016年成立,创始团队来自北京大学。2020年,他们开始琢磨:能不能用AI把文字变成有声读物?
传统有声书的制作周期太长——一个成熟主播两小时才能出一小时干音,一本书上百万字,一个小团队一年也就做一两本。2024 年 6 月,该公司创立的长音频内容生产平台“呱呱有声”3.0发布了一项新功能——AI替身。
“我们不是替代真人,”北京灵伴即时智能科技有限公司工作人员高佳解释,“是给你训练一个分身。”主播需要提供两小时以上的高品质干音,大模型深度学习后,生成一个高度拟真的声音模型。导演在有声书制作界面选中这个模型,输入文本,等一分钟,刷新,音频就生成了。替身的定价是6.6 元 / 万字,扣除算力等成本,主播能分到大约一半。平台目前已有800多个“AI替身”上线,头部主播的月度分成超过万元。高佳说:“录完这两小时,AI替你干活。你本人可以去录那些 AI 做不到的部分——大哭、大笑、情绪爆发的戏。主角还得真人来。”辛女士不太懂这些技术细节,但她听懂了一件事:这两小时录好了,以后就不用每次都亲自念旁白。
“韵律、节奏、停顿最好自然,这样在后续采样期间,AI替身的训练会更加自然。”灵伴邀请的两位授课老师,一位叫郭金非,一级演员,配音导演,他曾为上百部译制片、上千部电视剧配音。郭老师注重实践,会现场教学一对一指导发音;另一位老师叫东华,是专业的有声书演员,更注重理论讲解。此刻,东华老师正在给一群残疾人学员线上授课。屏幕共享框里,他展示着一段文本,停下来解释:“镜头越近,语速越快;镜头越远,语速越慢。”
培训从2025年11月开始,从“基石篇”到“实战篇”,每两周一次,线上直播,配有录播回放。郭金非负责专业指导,另一位老师本身就是残疾人主播,分享更实用的录制经验。日常的培训通知和辅导答疑都在线上“AI替身制作群”里进行。
辛女士也在群里。她发言少,但每次课都听。“我觉得对自己的声音、朗诵技能,对AI的认知,都是挺不错的提升。”她说。之前不知道AI是什么。现在她知道了,AI是那个不会累的“替身”,是那个让她 71岁了还能跟这个世界保持连接的通道。“参加活动,我心情也好,”她说,“尽管可能朗诵得不是很好吧。”
辛女士录完之后,技术人员开始跑模型。几天后,她听到自己的声音从手机里传出来。是她,又不仅仅是她。音色一样,节奏一样,连那些轻微的吸气声都被保留了下来。但那个声音不会累,不会口干舌燥,不会因为情绪波动而走调。它只是一字一句地读着,平稳、准确、不知疲倦。她的替身将和另外四位残疾人的替身一起,被放到“呱呱有声”平台上。还有另外几位刚录完的声音正在被训练,即将上线。配音导演们可以试听、收藏、选用。2025 年12月3日,第34个国际残疾人日。灵伴智能的产品团队发布了一条更新:呱呱有声录音宝支持无障碍操作。适配读屏软件,支持全键盘与快捷键。那条推文里写着一句话:“录音无障,声声平等。”
辛女士没看过那条推文。但她在录音棚里坐着的那些下午,隔音棉吸走所有噪音,她对着话筒说话,声音被保存、被分析、被训练——她知道,她的声音被“听见”了。
“最重要的,是体现了对我们(残疾人)的重视,还有对老年人心理的关注,”辛女士说,“觉得自己有很大提升,感觉自己没有被社会淘汰。”她说,钱不钱的没关系,只要有这个机会,这些都不重要。但“能挣钱更好。”说到这,她笑了。
“以前传统的帮扶手段,主要是给残疾人提供需要持续劳作的体力工作,或者给一些资助。”高佳说,“但我们了解到,有一些残疾人朋友,声音条件特别好。公司有这方面的技术,就希望能在 AI 时代,为残疾人提供基础的就业条件。”她说,公司创始人开始关注这个群体,其实是很偶然的事。“我们关心边缘群体——残疾人、老年人——他们接触新技术时,往往是被排斥在外的。”
“与他们进行声音交流的时候。”高佳说,“没有觉得残疾人和健全人有任何区别。”“这个活动,对我们帮助挺大的。”辛女士说,“科技助残,让我们能够学到很多东西。能发挥自己的余热。”
2025年10月28日,北京市残联与灵伴智能在汇爱大厦共同启动了“AI助残——残疾人声音价值传播助残行动”。北京市残联副理事长王响平在启动仪式上说:“我们正从传统的帮扶模式,转向通过科技赋能个体潜能的新模式。这项行动的核心,是帮助参与者将声音特色转化为可持续开发的‘数字资产’,实现从‘授人以鱼’到‘授人以渔’的关键转变。”
两小时,是那个“渔”。
辛女士录完最后一段干音,摘下耳机,推开录音棚的门。外面的光涌进来。她拿起桌上的水杯,慢慢拧开盖子,喝了一口水。
两小时,只是一个开始。