OpenAI再次“Open”,开源模型GPT-oss有什么可以学?

音符科技网

界面新闻记者 | 伍洋宇

界面新闻编辑 | 文姝琪

过去几个月,OpenAI没有出现过什么激动人心的好新闻:新模型不再惊艳、重要人才流失,就连斥巨资想要收购的明星创业公司Windsurf,也被谷歌截了胡。

但这些问题还是要回到根本层面来解决,比如说再次发布一个足以受到普遍认可的新模型——这就是GPT-oss在这个节点出现的意义之一。

图片来源:OpenAI官网

8月6日凌晨,OpenAI宣布推出开源推理模型Gpt-oss,包含Gpt-oss-120B(激活参数5.1B)和Gpt-oss-20B(激活参数3.6B)两个参数大小,支持上下文128K。值得注意的是,这是OpenAI时隔六年再次开放权重。

从性能表现上来说,Gpt-oss-120B模型在核心推理基准测试中与OpenAI o4-mini几乎持平,Gpt-oss-20B则与OpenAI o3-mini取得类似结果。 

图片来源:OpenAI官网

就国产模型而言,综合公开数据,两款模型对比DeepSeek-R1、通义千问(Qwen3-235B-A22B)、智谱GLM4.5-Air、月之暗面Kimi K2等,除了个别维度,在AIME24/25、GPQA、MMLU等常规基准测试上普遍表现更好。

不仅如此,Gpt-oss-120B据称能够在单个80GB GPU上运行,Gpt-oss-20B可在仅配备16GB内存的设备上运行,这意味着两款模型或将迅速占领端侧设备本地推理的需求市场。

OpenAI还开门见山说明了两款模型均采用Apache 2.0许可证,也就是既可商用也可改造,基本没有使用限制。

开源决策与性能表现之外,本地部署的高效是Gpt-oss此次赢得业界认可的主要原因。 

OpenAI提到,两款模型的权重均可在Hugging Face上免费下载,且在后期训练阶段已原生量化为MXFP4格式——Mixed Format 4-bit Precision,是一种专为大模型推理打造的混合精度量化格式,目的在于保留关键信息的同时,把参数用更聪明的方式压缩成低精度。 

对比更为常见的FP16、FP8等,MXFP4能够在接近8-bit量化效果的同时,保留4-bit低精度量化速度快、内存小的特性,综合达成更好的模型性能表现。也就是说,它将一个“满血版”推理模型的本地部署门槛又大幅降低了。

一名AI领域实验室研究人员对界面新闻记者表示,他在本地部署了20B版本的Gpt-oss后,直接替换了同样本地部署的Gemma 3(12B),理由就是前者“快很多”,基本可以每秒输出45个token左右,而Gemma 3的速度在每秒30个token左右。并且在一些基础的思考题上,OpenAI可以给出更标准的答案。

他没有给予Gpt-oss过高的评价,因为现阶段的大模型彼此之间的性能差异已经很小,“谁免费,谁快,我就用谁。

不过,凭借Gpt-oss这款模型,OpenAI可能还是把DeepSeek-R1出现之后,它在开源世界缺乏的声量弥补了一些回来,也顺带轻轻回击了“CloseAI”这个持续已久的昵称。

复旦大学计算机科学技术学院教授张奇对界面新闻记者表示,根据其内部评测,他认为Gpt-oss在效果层面领先目前的DeepSeek和Qwen,这体现的还是OpenAI对模型的理论理解能力以及工程实现能力。 

他同时指出,这也说明了一个问题,即OpenAI还是没有从模型架构上实现巨大突破,而按照现有架构去实现AGI几乎没有可能性。

大模型成为全球科技领域焦点以来,中美之间的闭源模型竞争一直是更核心的话题,直到DeepSeek将开源模型的地位推至新高。而OpenAI在Gpt-oss上的补课,明显对既有局面有所扭转。眼下,国产开源模型可能有新的内功可供学习打磨了。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 外滩新一轮更新如何打好金融牌:从百年银行公会大楼说起
  • 日本长崎市举行原子弹爆炸80周年纪念仪式
  • 规模曾超百亿,招商基金旗下这只重要产品现人事变动:“功臣”翟相栋离任,陆文凯继续管理
  • 国家统计局:7月份核心CPI同比持续回升,PPI环比降幅收窄
  • 受食品价格较低影响,7月CPI同比持平
  • 邵医生的死亡,抖音还有几个问题没说清楚
  • 郑州发布暴雨黄色预警信号
  • 【惠州最新疫情,惠州疫情最新报道】
  • 【河南太康新增确诊病例5例其中3例为学生,河南太康最新疫情通报】
  • 以军袭击与饥荒持续致加沙地带数百人死伤
  • 2025最美退役军人|陈天燕:从国庆阅兵场女兵,到乡村振兴“领头雁”
  • 周晨:未来2-3年,高自由度的五指灵巧手会回到一万左右终端价格
  • 浙江省委原副书记、省政协原副主席陈法文逝世,享年96岁
  • 抗战回望42︱《新中华》:“灌输时代知识,发扬民族精神”
  • 海外考古大家访谈|傅罗文:专业化生产与社会复杂化进程
  • 【太原解封最新消息/昨天太原某社区疫情解封】
  • 俄总统助理:俄美阿拉斯加峰会筹备工作将是复杂过程
  • 西安一遗址馆外多人高温下躺卧“汗蒸”,馆方:正尝试劝离
  • 上海发布高温橙色预警,最高气温将冲击37~38℃
  • 俄航天集团:载有俄宇航员的载人龙飞船脱离国际空间站
  • 当当网创始人李国庆婚礼卖门票,报价2万元?李国庆本人转发辟谣帖
  • 国家统计局:7月份核心CPI同比持续回升 PPI环比降幅收窄
  • 司机收钱“办社保”涉诈骗,受害人称应调查人社局涉案工作人员
  • 水利部:全力为甘肃兰州榆中县山洪灾害抢险救援提供支持
  • 左手“商品” 右手“股票”,双维度演绎小金属红利
  • 男子与前妻赌气离家,回乡领退休金时发现自己“已死亡19年”
  • 也门胡塞武装举行大规模集会,强烈抗议以方接管加沙城计划
  • 四川省委常委、成都市委书记曹立军调研世运会竞赛场馆赛时运行工作
  • 国家统计局:7月份居民消费价格同比持平
  • 陈世星任甘肃省大数据中心主任,卸任省政府副秘书长
  • 河北解除重大气象灾害(暴雨)Ⅲ级应急响应
  • 辽宁兴城通报“沙滩支帐篷收费”:经营者违规,景区已解除协议
  • 25岁中国翼装飞行博主RandyZ在意大利身亡,救援队在峡谷发现其遗体
  • 2025年暑期档电影总票房破80亿
  • 接受咨询机构“专业访谈”竟惹官司?这些间谍套路不得不防
  • 刘耀东:空间计算是未来AI发展的一个大趋势
  • 特朗普政府要求驳回哈佛涉外籍学生诉讼
  • 2025世界机器人大会:百余款新品集体“炸场”,1500多件展品亮相
  • 李瑞:通过视触觉和手眼协同平台打造真正心灵手巧的类人智能机器人
  • 以色列接管加沙城计划暴露困境,欧洲对以发出暂停军售威胁
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码