网易首页 > 网易号 > 正文 申请入驻

【实测】ChatGPT 4.1 很好,但没那么好

0
分享至


省流:写代码,写文章,设计卡片,数学能力都不甚令人满意

大家好,我是 Ai 学习的老章


GPT - 4.1

OpenAi 又发新模型了,新推出的 GPT - 4.1 系列模型,包括 GPT - 4.1、GPT - 4.1 mini 和 GPT - 4.1 nano,官网介绍:它们在编码、指令遵循、长上下文处理等方面有显著提升,且成本更低。在编码能力上,GPT - 4.1 在 SWE - bench Verified 测试中得分 54.6% ,远超 GPT - 4o 和 GPT - 4.5,在多种编码任务上表现出色。


长上下文处理能力增强:GPT - 4.1、GPT - 4.1 mini 和 GPT - 4.1 nano 可处理高达 100 万标记的上下文,远高于之前 GPT - 4o 模型的 128,000 标记。这使得模型在处理大型代码库或大量长篇文档时游刃有余。

通过对推理系统的优化,GPT - 4.1 系列价格更低。例如,GPT - 4.1 在中位数查询上比 GPT - 4o 便宜 26% ,GPT - 4.1 nano 更是有史以来最便宜和最快的模型。



免费使用方式

GPT-4.1仅提供API,openai对国内网络不友好

我找了两个可以使用的地方:

Github Copilit中可以申请开通GPT-4.1

地址:https://github.com/copilot


我试了确实免费,是否有别的限制,未知。


WindSurf 也更新了,免费试用 7 天,本文测试均在Windsurf中进行

下载地址:https://windsurf.com/refer?referral_code=60b0053769


测试 1:数学能力

不欺负它,出一道小学一年级下学期的题目


它回答不出来


GPT-4o就可以回答正确


测试 2:弹跳小球

提示词:

- 所有小球半径相同。 - 每个小球上有从 120 的编号。 - 所有小球在开始时都从七边形中心下落。 - 小球颜色分别为:#f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35- 小球应受到重力和摩擦力影响,并能真实地与旋转的七边形边界发生弹跳。小球之间也应有碰撞。 - 所有小球的材质特性保证它们的反弹高度不会超过七边形的半径,但要高于小球半径。 - 所有小球会有自转且有旋转摩擦,小球上的编号可以用来体现自转角度。 - 七边形绕中心旋转,旋转速度为每 5360 度。 - 七边形的尺寸应足够大,可以容纳所有小球。 - 不允许使用 pygame 库,碰撞检测与响应等算法需自行实现。允许使用的 Python 库为:tkintermathnumpydataclassestypingsys- 所有代码需写在同一个 Python 文件中。

结果:代码生成很快,运行顺畅无 bug,但是只有一个球。


提醒其错误后,重新生成代码,一切正常了。


测试 3:设计知识卡片

提示词:阅读全文,文中共几次父亲的背影?分别有何深意,输出 SVG 格式,3:4,小红书风格:——省略 1328 字

结果:没有理解到位,只找到 3 个背影,设计出来的卡片奇丑无比


看看 Claude 3.7 就知道差距了

他找到了原文,针对原文做了深意理解

然后还完美呈现出来了,


测试 4:基于素材写文章

给它英文素材,写一篇有人文气息的科技文章,结果如下:


其实前几天推文这篇文章是Claude-3.7写的,差距蛮大的,我觉得4.1完败:

[[2025-04-16-如果你用过matplotlib,请记住他的名字]]

测试 5:设计单词消消乐游戏

直接让它设计一款小游戏并写好可运行的代码


一口气写了十几个文件,测试可以跑通,但是可玩性不太好


反观Claude-3.7 帮我设计的是真消消乐,翻转卡片找配对的单词和中文,很好玩


测试 6:视觉能力

把游戏截图画面给GPT-4.1,识别没有问题,但是对相邻字母没有理解到位



测试 7:大海捞针

我实际没有 api,完整测试没法搞,只能看 OpenAI 官方测试情况了

GPT-4.1 检索位于上下文窗口内不同点的一小条隐藏信息(“针”)的能力。GPT-4.1 在所有位置和所有上下文长度上始终如一地准确检索指针,一直到 100 万个令牌。它能够有效地提取手头任务的相关详细信息,而不管它们在输入中的位置如何。


大海捞针评估中,GPT-4.1、GPT-4.1 mini 和 GPT 4.1 nano 都能够在最远 1M 的环境中检索所有位置的针。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

刚刚,吴恩达新推出一门免费短课

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
勇士有资产交易字母哥,但有个大问题:必须字母哥点名和库里同队

勇士有资产交易字母哥,但有个大问题:必须字母哥点名和库里同队

好火子
2025-05-17 22:50:42
陈盈骏:总决赛拼的是团结和心态,后边比赛要保持今天的表现

陈盈骏:总决赛拼的是团结和心态,后边比赛要保持今天的表现

懂球帝
2025-05-18 00:13:11
王喜还原遭男友人迷奸细节:两次被下药迷晕,醒来后下半身已失禁

王喜还原遭男友人迷奸细节:两次被下药迷晕,醒来后下半身已失禁

素素娱乐
2025-05-15 08:35:59
四大血型排行榜公布:B型血平均年龄76岁,排名第二,第1是哪型?

四大血型排行榜公布:B型血平均年龄76岁,排名第二,第1是哪型?

39健康网
2025-04-14 19:46:37
广州30岁女子宰鸽子煲汤后,干咳一周感染新型隐球菌肺炎,肺部CT惊现“鬼脸征”

广州30岁女子宰鸽子煲汤后,干咳一周感染新型隐球菌肺炎,肺部CT惊现“鬼脸征”

鲁中晨报
2025-05-17 07:43:02
高价耳环女星爸爸一句话,淘宝电商连夜赶货,店铺同款被强制下架

高价耳环女星爸爸一句话,淘宝电商连夜赶货,店铺同款被强制下架

春序娱乐
2025-05-17 22:57:15
“鬼城”又添一座?房价从“1.2万元暴跌到600元”,还是无人问津

“鬼城”又添一座?房价从“1.2万元暴跌到600元”,还是无人问津

巢客HOME
2024-11-22 06:15:02
俄罗斯,秋后算账开始了!

俄罗斯,秋后算账开始了!

大嘴说天下
2025-05-15 22:44:28
3-2!中甲神级逆转:陕西补时5分钟连入3球+止3连败 恒大旧将绝杀

3-2!中甲神级逆转:陕西补时5分钟连入3球+止3连败 恒大旧将绝杀

我爱英超
2025-05-17 17:50:15
这本伟大的禁书,信息量巨大

这本伟大的禁书,信息量巨大

难得君
2025-04-27 16:38:20
失业后,用6个月工龄换取灵活就业的4050、4757补贴,划算吗?

失业后,用6个月工龄换取灵活就业的4050、4757补贴,划算吗?

养老规划罗姐说
2025-05-17 11:03:50
记者:准状元弗拉格接受了家乡球队凯尔特人的单独面试

记者:准状元弗拉格接受了家乡球队凯尔特人的单独面试

懂球帝
2025-05-17 09:19:12
莱万&3C:我俩加起来70多岁,看十七八岁的年轻人庆祝真有趣

莱万&3C:我俩加起来70多岁,看十七八岁的年轻人庆祝真有趣

懂球帝
2025-05-17 09:41:24
尘埃落定,内马尔重返欧洲?官宣下家,1年合同,90%肖像权

尘埃落定,内马尔重返欧洲?官宣下家,1年合同,90%肖像权

乐聊球
2025-05-17 09:37:56
重庆南岸一套一线江景房拍卖,10人加价241次后拍出921万元

重庆南岸一套一线江景房拍卖,10人加价241次后拍出921万元

天天话事
2025-05-16 09:51:29
曝广东一小学女老师出轨多人:照片流出,肮脏聊天曝光,情人发声

曝广东一小学女老师出轨多人:照片流出,肮脏聊天曝光,情人发声

博士观察
2025-05-17 11:03:22
登陆豪门?阿根廷跟队:32岁大马丁收到两家欧洲大俱乐部的报价

登陆豪门?阿根廷跟队:32岁大马丁收到两家欧洲大俱乐部的报价

直播吧
2025-05-17 07:00:27
43岁张默独居泰国,生活奢靡高调炫富,连张国立也拿他没任何办法

43岁张默独居泰国,生活奢靡高调炫富,连张国立也拿他没任何办法

温读史
2025-05-15 17:21:25
快看,那边有位下山的神!

快看,那边有位下山的神!

狗哥是一名三十年内拉
2025-05-15 14:19:14
真正让国家蒙羞的,恰恰是某些“爱国者”

真正让国家蒙羞的,恰恰是某些“爱国者”

黑噪音
2025-04-27 16:07:46
2025-05-18 01:08:49
机器学习与Python社区 incentive-icons
机器学习与Python社区
机器学习算法与Python
2960文章数 11008关注度
往期回顾 全部

科技要闻

王树国:梁文锋如果读博 还有DeepSeek吗?

头条要闻

老人被儿媳赶出、遭女儿拒养只能睡楼道 最新进展来了

体育要闻

35岁穆勒德甲告别战被换下 全场鼓掌致敬

娱乐要闻

汪小菲婚礼在亭子里办仪式好热闹

财经要闻

关键时刻,央妈出手了

汽车要闻

小米汽车回应前保险杠变形 免费取送车和修复

态度原创

旅游
艺术
房产
手机
军事航空

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

房产要闻

三年血亏468万!天河、黄埔网红盘,跌到底了吗?

手机要闻

真我多款新机待发,有一款或采用透明背板设计

军事要闻

央视披露歼-10CE为何能击落多架战机