省流:写代码,写文章,设计卡片,数学能力都不甚令人满意

大家好,我是 Ai 学习的老章
GPT - 4.1
OpenAi 又发新模型了,新推出的 GPT - 4.1 系列模型,包括 GPT - 4.1、GPT - 4.1 mini 和 GPT - 4.1 nano,官网介绍:它们在编码、指令遵循、长上下文处理等方面有显著提升,且成本更低。在编码能力上,GPT - 4.1 在 SWE - bench Verified 测试中得分 54.6% ,远超 GPT - 4o 和 GPT - 4.5,在多种编码任务上表现出色。
长上下文处理能力增强
:GPT - 4.1、GPT - 4.1 mini 和 GPT - 4.1 nano 可处理高达 100 万标记的上下文,远高于之前 GPT - 4o 模型的 128,000 标记。这使得模型在处理大型代码库或大量长篇文档时游刃有余。
通过对推理系统的优化,GPT - 4.1 系列价格更低。例如,GPT - 4.1 在中位数查询上比 GPT - 4o 便宜 26% ,GPT - 4.1 nano 更是有史以来最便宜和最快的模型。
免费使用方式
GPT-4.1仅提供API,openai对国内网络不友好
我找了两个可以使用的地方:
Github Copilit中可以申请开通GPT-4.1
地址:https://github.com/copilot
我试了确实免费,是否有别的限制,未知。
WindSurf 也更新了,免费试用 7 天,本文测试均在Windsurf中进行
下载地址:https://windsurf.com/refer?referral_code=60b0053769
测试 1:数学能力
不欺负它,出一道小学一年级下学期的题目
它回答不出来
GPT-4o就可以回答正确
测试 2:弹跳小球
提示词:
- 所有小球半径相同。 - 每个小球上有从 1 到 20 的编号。 - 所有小球在开始时都从七边形中心下落。 - 小球颜色分别为:#f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35。 - 小球应受到重力和摩擦力影响,并能真实地与旋转的七边形边界发生弹跳。小球之间也应有碰撞。 - 所有小球的材质特性保证它们的反弹高度不会超过七边形的半径,但要高于小球半径。 - 所有小球会有自转且有旋转摩擦,小球上的编号可以用来体现自转角度。 - 七边形绕中心旋转,旋转速度为每 5 秒 360 度。 - 七边形的尺寸应足够大,可以容纳所有小球。 - 不允许使用 pygame 库,碰撞检测与响应等算法需自行实现。允许使用的 Python 库为:tkinter、math、numpy、dataclasses、typing、sys。 - 所有代码需写在同一个 Python 文件中。
结果:代码生成很快,运行顺畅无 bug,但是只有一个球。
提醒其错误后,重新生成代码,一切正常了。
测试 3:设计知识卡片
提示词:阅读全文,文中共几次父亲的背影?分别有何深意,输出 SVG 格式,3:4,小红书风格:——省略 1328 字
结果:没有理解到位,只找到 3 个背影,设计出来的卡片奇丑无比
看看 Claude 3.7 就知道差距了
他找到了原文,针对原文做了深意理解
然后还完美呈现出来了,
测试 4:基于素材写文章
给它英文素材,写一篇有人文气息的科技文章,结果如下:
其实前几天推文这篇文章是Claude-3.7写的,差距蛮大的,我觉得4.1完败:
[[2025-04-16-如果你用过matplotlib,请记住他的名字]]
测试 5:设计单词消消乐游戏
直接让它设计一款小游戏并写好可运行的代码
一口气写了十几个文件,测试可以跑通,但是可玩性不太好
反观Claude-3.7 帮我设计的是真消消乐,翻转卡片找配对的单词和中文,很好玩
测试 6:视觉能力
把游戏截图画面给GPT-4.1,识别没有问题,但是对相邻字母没有理解到位
测试 7:大海捞针
我实际没有 api,完整测试没法搞,只能看 OpenAI 官方测试情况了
GPT-4.1 检索位于上下文窗口内不同点的一小条隐藏信息(“针”)的能力。GPT-4.1 在所有位置和所有上下文长度上始终如一地准确检索指针,一直到 100 万个令牌。它能够有效地提取手头任务的相关详细信息,而不管它们在输入中的位置如何。
大海捞针评估中,GPT-4.1、GPT-4.1 mini 和 GPT 4.1 nano 都能够在最远 1M 的环境中检索所有位置的针。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.