12 月 22 日《华尔街日报》报道,万众期待的 OpenAI 下一代旗舰模型 GPT-5 的训练进度出现严重滞后,将无法如期发布。
根据消息人士透露,代号为猎户座(Orion)的 GPT-5 开发周期已经超过 18 个月。微软原本希望能够在 2024 年中期发布,但结果显而易见,随着过渡期的 OpenAI o3 模型亮相,今年已无可能。
据悉,OpenAI 给 GPT-5 设定的目标不低,内部至少进行了两轮大规模的训练,但效果都未达预期。
据曝料称,试验成品只比 GOT-4o 强了一点,但投入产出比很低。据评估,六个月的训练工程就烧掉了大约 5 亿美元。
报道指出,GPT-5 的训练始于 2023 年中,当时 OpenAI 启动了一项验证工程,但发现成本过高;2024 年初,在投资人的压力下,OpenAI 决定开启新一轮尝试。从今年 5 月开始,研究团队认为时机成熟,启动了一项长达半年的大规模预训练,但是在 11 月得到的结论来看,训练数据集的数据多样性存在不足。
简而言之,新模型无法从学习资料里边学到更多有价值的资讯。
此后,OpenAI 另辟蹊径,招聘了专业的软件工程师和数学家编写代码、数学题来给新模型提供学习材料,并记录其推理过程。
同时还寻求专业人士协助利用旗下的推理模型 o1 合成新数据,并结合已有数据来不断改进新模型的生成结果。
但投资人并不会一直耐心等待,迫于研发进度的延缓,OpenAI 开始将注意力放在一些能够产生收益的应用项目,比如基于 GPT-4o 开发的各种新版本、SORA 视频模型等等。
有知情人士透露,开发新应用产品的团队,与研究 GPT-5 的开发团队为了有限的计算资源打得不可开交。
OpenAI 联合创始人兼前任首席科学家 Ilya Sutskever 近期对外铁口直断:Transformer 大语言模型架构通过超大规模参数堆砌的训练来提高模型质量的理论“已经失效”。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.