作者 | Anthony Alford
译者 | 明知山
策划 | 丁晓昀
OpenAI 最近发布了一份提示词工程指南。该指南列出了六种策略,旨在从 GPT 模型获得更好的响应,并着重关注 GPT-4 的示例。
该指南的六个高级策略包括:撰写清晰的说明、提供参考文本、将复杂任务分解为更简单的子任务、给模型时间“思考”、使用外部工具以及系统性地测试变更。每个策略都被细分为一组具体可行的策略,并附有示例提示词。许多策略都基于 LLM(语言模型)研究的结果,例如链式思维提示词或递归摘要。
OpenAI 在 2020 年发布的关于 GPT-3 的 研究论文展示了该模型如何使用少量样本学习处理各种自然语言处理(NLP)任务;本质上是通过向模型提供任务描述或示例来引导执行。2022 年,OpenAI 发布了一篇 Cookbook 文章,其中包含了几种“提高 GPT-3 响应可靠性的技术”。其中一些,如提供清晰的说明和拆分复杂任务,仍包含在新的指南中。文章中还包含了一份支持他们技术的研究论文的参考书目。
指南中的几种策略利用了 Chat API 的系统消息。根据 OpenAI 的文档,这个参数“有助于设置助手的行为”。一种策略建议用它来赋予模型角色,以此来塑造其响应。另一种策略建议用它传递长会话摘要,或者提供一组多个用户会重复输入的指令。
使用外部工具策略提供了与其他系统接口交互的提示,指向了 OpenAI Cookbook 中的文章。其中一种策略建议,与其让模型自己执行数学计算,不如生成 Python 代码来执行计算,然后从模型响应中提取代码并执行。该指南还包含了一项免责声明,即模型生成的代码不保证是安全的,并且应该只在沙盒中运行。
指南中的另一个策略,系统性地测试变更,涉及如何判断不同的提示词实际上会导致更好或更差的输出。该策略建议使用 OpenAI Evals 框架,在 GPT-4 发布的时候 InfoQ 报道了这个框架。该策略还建议使用模型通过系统消息“参考黄金标准答案”来检查自己的工作。
Hacker News 的一个用户在针对该指南的讨论中说道:
最近我一直犹豫是否要花费大量时间学习如何完善提示词。似乎每个新版本,更不用说不同的 LLM,都会产生不同的响应。随着技术的快速发展,两年或五年后,随着系统会变得更加智能,我们可能甚至都不需要如此复杂的提示词。
其他几个 LLM 提供商也发布了提示词工程技巧。Microsoft Azure 将访问 GPT 模型作为一种服务,他们提供了与 OpenAI 类似的 技巧清单。他们的指南还提供了有关设置模型参数(例如温度和 top_p)的技巧,这些参数控制模型输出生成的随机性。谷歌的 Gemini API 文档包含了几种 提示词设计策略,以及有关设置 top_p 和温度值的建议。
https://www.infoq.com/news/2023/12/openai-prompt-engineering/
声明:本文由 InfoQ 翻译,未经许可禁止转载。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.