对话招商局首席科学家张家兴:具身智能要在大模型下一次重大进步来临前“先活下来”

音符科技网

界面新闻记者 | 陆柯言 李彪

界面新闻编辑 | 文姝琪

2025年,国内具身智能机器人行业掀起了一场 “百机大战”。天眼查等数据平台显示,2024年底时,国内人形机器人整机公司已经超过了80家,全球范围内总共约有150家;而仅今年上半年,中国新增人形机器人公司数量就超过了去年一整年,同时还有更多新创企业排队入场。

“除了世界上少数团队专注于foundation model(注:OpenAI、Anthropic、阿里通义千问、DeepSeek研发的千亿参数底层基础模型)研发外,当下AI创业更具商业化潜力的两大分支,一个是Agentic AI(注: *** 式AI,即AI Agent智能体),另一个就是具身智能。” 招商局集团首席科学家、狮子山人工智能实验室主任张家兴近期接受界面新闻专访时表示。

张家兴是国内最早一批投身AI研究的学者。他形容自己是一个 “追着技术前沿跑的人”:早年在微软亚洲研究院钻研大数据框架和深度学习,随后在蚂蚁金服、360数科带队开展 AI 深度学习落地探索;2021年加入IDEA研究院,担任认知计算与自然语言研究中心负责人,主导“封神榜”大模型项目;2024年正式加入招商局集团,筹办狮子山研究院,研究方向是AI与具身智能结合、应用于机器人研发。

招商局首席科学家张家兴 采访对象供图

虽然看起来每一段职业经历都是研究当时最热门的前沿技术,但在张家兴理解中,“每一步都是为下一步做铺垫”—— 深度学习以数据为基础,只有积累足够数据,才可能开展深度学习研究;而早期大模型正是从深度学习研究中衍生出的AI新领域。

而对于具身智能的爆发,张家兴认为,真正的转折点出现在2023年前后。行业发现VLA这类模型(Vision-Language-Action Model,即“视觉 - 语言 - 动作”模型,即强调通过整合视觉感知、语言理解和动作生成能力,实现机器人从环境观察到指令执行)已经能作为机器人 “大脑”,强大到可以驱动人形机器人、机器狗完成一系列高难度任务。在行业真正意识到技术的潜力后,如何将 AI 模型应用于机器人研发,成为了如今具身智能领域最前沿的创新趋势。

从去年9月在香港成立以后,招商局集团已经完成了狮子山研究院的团队组建,近期还首次发布了成立后的两项新产品:一是基于 Agentic AI研究的智能体强化学习训练推理系统L0系统;二是基于其柯基VLA 模型(Corgi-VLA)开发的四足机器狗。借助模型能力,这款机器狗仅通过16个小时真实环境数据训练,就能实现跟在人身后 “近身智能随行”,实时陪伴逛街。

指令: 跟随前面穿着黑色衣服和短裤拎着香蕉的人走
指令:  走到东森行商店门口,然后停止

以下是专访实录(内容经界面新闻调整)

界面新闻:从微软亚洲研究院、蚂蚁、360与IDEA研究院,到如今加入招商局集团,如何看待自己的职业经历?

张家兴:我的职业经历始终与科技前沿技术同步。在大数据时代,我们是全球最早一批研发大数据框架的团队;进入深度学习时代,我们同样是最早涉足深度学习研究的群体。

这几段经历之间的关联性可以这样理解:每一步都是为下一步做铺垫。举个例子,深度学习无疑是以数据为基础,必须先夯实大数据根基,积累足够数据,才能开展深度学习研究。

深度学习之后,2021年左右我开始投身大模型研究。大模型早期正是基于深度学习发展而来,简单说,它通过扩大模型规模,形成了一个新的研究领域。

大模型进一步发展衍生出不同分支。当下除少数团队专注于基础模型的研发与迭代外,我认为更具前景的两大分支就是Agentic AI和具身智能。

具身智能的概念2023年才开始走红,这主要得益于大模型的发展。当时行业发现,VLA这类端到端模型已具备强大能力,能够直接驱动机器人完成各类任务,其中一些任务是此前机器人领域难以想象的。我借此机会进入具身智能领域,同时也兼顾相关AI模型技术的研究。

界面新闻:从这一角度看,在AI时代,最重要的是技术、人才、资金还是其他因素?

张家兴:在深度学习时代,前沿技术创新多由老师带领学生开展,“人工智能三巨头” 杰夫・辛顿(Jeff Hinton)、杨立昆(Yan LeCun)、约书亚・本吉奥(Yoshua Bengio)都是在高校科研院所带学生完成重要的研究工作。

自OpenAI起,整个AI行业进入新的研发模式,即以团队为核心进行前沿技术创新。OpenAI、DeepSeek、美国人形机器人初创企业Figure均是这类模式的代表。

这些团队规模通常不大,约100人左右,成员被高效组织起来,聚焦共同目标,可能是一篇论文、一个模型或一台机器人。他们发表的每篇论文,作者列表往往多达几十人。

如今的核心问题变成了如何组建这样的团队?如何吸引人才并将其组织起来?我们研究院依托招商局这个国企平台组建团队,方式虽有不同,但本质上仍是团队建设问题。

界面新闻:您之前提到,当前大模型最重要的两个分支是Agentic AI和具身智能,公司最新发布了基于Agentic AI研究的L0系统。与传统AI智能体相比,它的主要突破是什么?

张家兴:L0主要有两项创新突破:一是在模型推理过程中实现自然语言与编程语言的深度融合;二是基于强化学习让模型通过 “试错进步” 实现 “探索式学习”。

自然语言与编程语言的结合,核心是将人类日常语言与计算机可理解的代码相融合。今年行业内热门的传统 Agent,均通过自然语言向计算机输入提示词(Prompt)与上下文(context)。自然语言用于驱动人类行动,而编程语言专为驱动计算机设计,在调用 API、访问数据库、连接真实世界与计算机互动等方面更为精准。我们在设计Agent时,便思考能否将自然语言与编程语言结合。

具体而言,我们在L0系统中选用了更流行的AI编程语言Python。Agent运行时,可实现自然语言与编程语言的交互:自然语言生成Python代码,代码在编程语言环境中执行后,将结果返回至自然语言环境,再生成新代码、执行并返回结果,形成持续交互。在此过程中,Agent推理思维链的 “状态” 可通过编程语言形式存储,其存储规模可视为无限大,计算机内存、硬盘乃至互联网的容量有多大,存储规模就能达到多大,这些极大拓展了现有大语言模型的能力。

探索式学习仍基于强化学习,类似人类通过不断尝试、获取反馈来学习。模型能够自主生成样本和训练数据,我们通过特定评判机制判断样本优劣,再利用反馈结果反过来训练模型。模型通过自主 “探索”,根据反馈调整自身,基于这种模式,其性能比普通模型提升近一倍。

界面新闻:这些创新的应用场景是什么?

张家兴:AI大语言模型的“Scale Law”法则强调,在模型研发与应用中,通过增加资源、扩大规模来提升性能和效果。

我们目前已开源L0系统,希望为行业提供一套加速训练框架。如今无论是何种Agent,包括具身智能机器人本身也被行业视为一种“Agent”,基于这套加速训练框架,我们都希望能提高模型所在数字空间与真实物理世界的互动效率,加快速度并降低成本。

界面新闻:你曾提到过,从2025年开始,Agentic AI领域进入 “Zero 时代”,零样本、模型探索合成数据、“算力 = 数据” 是这个时代的特征?

张家兴:深度学习领域,尤其是OpenAI之后流行的“Scaling Law”法则,使得基于数据和预训练的 “暴力美学” 成为绝对真理,开展任何工作都需先准备数据。

但在当下,在预训练大模型能以极低成本获取的情况下,大模型本身已具备基本能力,更重要的是,它实际上拥有自主开展exploration(探索式学习)的能力。简单说,对于任何任务,它一开始就能做得差不离。这种情况下,我们完全可以让大模型采用“Zero-Shot”模式,即不预先准备数据,而是从零开始让其在与环境的交互中生成数据,只要我们有能评判优劣的机制即可。

而在行业认可的评判标准尚未建立前,不预先准备数据,模型开始基于探索式学习时,犯错的代价便是消耗算力 —— 错误越多、成功率越低,算力浪费就越严重。因此,未来行业竞争将聚焦算力,谁拥有更多算力,就能开展更大规模的exploration,探索更多可能性。

界面新闻:在具身智能领域,如何看待VLA的前景?

张家兴:我认为VLA是当下的唯一选择。未来是否会出现更多选择,我们可以拭目以待。

可以说VLA是这一波具身智能引发行业关注的最重要原因。正是因为行业发现,经过大规模预训练的大模型在驱动机器人方面展现出潜力,才掀起了这具身智能的热潮。

界面新闻:如何看待行业热议的VLA作为端到端模型存在的 “技术黑箱” 和实现 *** 上的不可解释性问题?

张家兴:我不建议在这一问题上花费过多时间争论。世界上不可解释的事物众多,无论是人类大脑还是AI,复杂系统的不可解释性是必然的。

界面新闻:现阶段VLA模型有哪些独特的优势?

张家兴:现阶段VLA是让机器 “懂场景、有温度” 的更优解。以我们的Corgi-VLA模型为例,它有三大设计:混合注意力机制让它优先关注“人”的状态,比如在商场中始终锁定随行的老人而非货架上的商品,动态动作生成模块让动作更柔和,机器狗转身时会放慢速度避免惊吓到人,多模态融合训练让它能理解指令背后的真实需求,这些细节都是技术温度的载体。

从数据训练角度,Corgi-VLA模型通过对不同模态数据的高效融合,减少对单一模态大规模数据的依赖,以相对少量多模态数据训练出更具泛化性与适应性的模型,例如结合少量视觉图像、语言指令和动作反馈数据,实现对复杂场景的精准理解与执行。

为达成这一目标,在模型训练数据上,我们会不断探索用更少、更具代表性的数据,训练出能捕捉生活丰富细节、理解人类复杂情感的模型,让机器人在有限数据学习中,也能实现与人类深度、温暖的交互。

界面新闻:具身智能将模型引入机器人研发,目标是达到何种效果?

张家兴:单纯从传统机器人技术来看,像工厂产线的固定任务(如分拣、搬运),传统工业机器人、机械臂在特定软件算法与硬件配合下,其实表现不错。

而VLA模型在具身领域的研究,更多是将大语言模型的成功延伸至物理世界,bring large models into physical world,这一过程中更重要的是引入大语言模型已经具备的通用性。

通用性具体表现包括:一是能听懂人类语言,可通过自然语言接收指令;二是具有高度泛化性,能随场景变化,准确完成新任务。

换句话说,我们研究VLA、探索具身智能,就是要打造机器人版ChatGPT。

界面新闻:有质疑声称,今年新成立的具身智能机器人企业可能在几年后淘汰一半,您如何看待这一观点?行业的下一个赛点是什么?

张家兴:我认为具身智能真正的机会在于,能否在大模型的下次重大进步来临前,先确保自身存活。

“活着”的核心是“技术硬实力 + 人文软实力”的双重突破。一方面技术上要持续提升VLA模型的效率与泛化能力,硬件上降低成本让更多家庭用得起;另一方面更重要的是坚守科技创业的初心 , 不盲目追求酷炫功能,而是深耕“解决真需求”的场景。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 美国将征收100%关税!剑指芯片&半导体!科创人工智能 ETF(589520)携四大驱动,埋伏国产 AI 产业链机遇
  • 南京市纪委监委通报:4名干部被查
  • 国资云概念异动拉升,吉视传媒触及涨停
  • 中证协鼓励券商将AI算法、大数据分析、大模型等能力嵌入IT系统稳定性运维中
  • 舍得酒业:拟选举钱顺江为董事 8月27日召开临时股东大会
  • 施暴者卖霸凌视频,达到送专门学校的标准了吗?律师解读
  • 苏州杀出年入19亿“地沟油再生”IPO!出口命脉被斩,逆势扩产能消化么?
  • 热搜!Zara广告因模特太瘦被禁,最新回应:广告已删除
  • 被滥用的阿莫西林、阿司匹林:商家称洗头洗脸有奇效,多平台售卖
  • 招商银行经典白,迎来两条坏消息
  • 事关美联储主席!特朗普:已启动面谈程序,可能只剩下了三位候选人,这两位非常好......
  • 港股苹果概念盘初直线拉升,高伟电子涨超11%
  • 是否有计划将参股的机器人、人工智能类公司借壳上市?雅艺科技回应
  • 赤子城科技盈喜后高开逾9% 预计上半年纯利同比增长约108.9%至126.7%
  • 日本称美关税公告与协议不一致,要求纠正
  • 港股开盘:恒生指数涨0.29%,恒生科技指数涨0.27%,曹操出行高开超7%
  • 统一企业中国绩后高开逾3% 中期股东应占溢利同比增加33.24%
  • 释新闻|伊朗为何重启国防委员会、更换最高国家安全委员会秘书?
  • 广州山体滑坡已致2人死亡仍有5名被困人员在搜救中
  • 托马斯·穆勒加盟美职联俱乐部温哥华白沙
  • A股,重大突破!
  • 【盘前三分钟】8月7日ETF早知道
  • 15倍牛股惠城环保有无谎言?业绩放量前的精准入股有无利益输送 财务资助有无掏空之嫌
  • 华润材料:公司尚未涉足尼龙业务,不生产PA66
  • 视频|追讨逾4000万元,江西首家科创板环保公司状告万安县政府!官方回应
  • 国内商品期货早盘开盘,氧化铝涨超1%
  • 15倍牛股惠城环保有无谎言?全球领先研发人均年薪7万 融资迫切应收激增
  • 分众传媒拟83亿全资收购新潮传媒, 双方户外广告市占率超17%
  • 快讯:恒指高开0.05% 科指涨0.15% 科网股普涨 中资券商股活跃
  • 苏丹武装部队总司令:将在首都地区实施“非军事化”措施
  • 奔驰价格崩了!最低只要12万,多地门店“人去楼空” | 次世代车研所
  • APP偷偷“自动续费”法院判决支持全额退款
  • 巴西2024年啤酒出口量增长逾四成 创历史新高
  • 宁波银行:11月1日起调整借记卡服务收费,动账短信每月2元
  • 广州白云山体滑坡已致2人遇难,仍有5名被困人员在搜救中
  • 搞大外交,这个国家有点东西!
  • 江苏首富24岁儿子,拟任400亿市值公司董事!
  • 光大期货:8月7日有色金属日报
  • 光大期货:8月7日软商品日报
  • 光大期货:8月7日农产品日报
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码