Claude 3为何能媲美GPT-4？|gpt-4|人工智能|应用程序|算法|上下文

Claude 3为何能媲美GPT-4？

2024-03-05 16:54:26　来源: 态℃

北京举报

分享至

出品丨网易科技《态度》

作者丨赵芙瑶

编辑丨丁广胜

GPT-4劲敌来了?“杀手锏”总是来的静悄悄，Anthropic 默默发布了Claude3，在业界引起了一次“大地震”。

Claude 3为何能媲美GPT-4?

Anthropic声称，此次发布的模型在一系列认知任务中设定了新的行业基准，甚至在某些情况下达到了“接近人类”水平。如果是其它模型这样“自吹自擂”，怕是早就被喷的体无完肤了，但是Anthropic的创始团队来源于OpenAI，2021年因观念不和才退出公司并自立门户，可以说是OpenAI的最强对手之一了，实力不容小觑。

Anthropic 这次一口气发布了三个人工智能语言模型，这三个模型的复杂性和参数数量排序依次为：Claude 3 Haiku，Claude 3 Sonnet和Claude 3 Opus。

其中Haiku响应速度快、成本最低，包含多模态能力；Sonnet的成本和性能较为平衡，适合有预算使用AI,但预算不多的群体。Opus拥有接近人类的理解能力，适用于需要高度智能和复杂任务处理的场景，想要使用Opus的话需要订阅“Claude Pro”服务，每月收费20美元。

Claude的三个模型都具有20万标记上下文窗口，而GPT-4 Turbo的上下文窗口为12.8万，也就是说，Claude一次性能处理的文本量是远远高于GPT的，同时，它也提供API给开发者使用。

我们再来看看Claude官网透露的最新价格。其中MTok表示百万Token，Opus每100万条token收费15美元，相比之下,GPT-4 Turbo模型的每百万token的收费仅为10美元。不过，Haiku的价格低于GPT3.5,可以说使用Claude的话，丰俭由人了。

依靠合成数据安全性强于GPT？

2023年3月，Claude问世，7月Claude 2发布，但是彼时并未引起太大的水花。因为每次，Anthropic在性能方面都略微落后于OpenAI的最佳模型，但在上下文窗口长度方面超过OpenAI。随着Claude 3的发布，Anthropic的性能或许可以与OpenAI一较高下了。

根据Anthropic的说法，Claude 3 Opus在10个AI基准测试中超过了GPT-4，包括MMLU（本科水平知识）、GSM8K（小学数学）、HumanEval（编码）以及名为HellaSwag（常识）的基准测试。其中一些测试只是“险胜”，例如在MMLU的五次试验中，Opus以86.8％战胜了GPT-4的86.4％，而有些测试则是“赢很大”，例如在HumanEval上，Opus的90.7％超过了GPT-4的67.0％。但这到底对用户来说意味着什么，还很难界定。

“一如既往，应该对LLM基准持一些怀疑态度。”AI研究员Simon Willison公开评价道。“模型在基准测试中的表现并不能告诉你模型在使用中‘感觉’如何。但这仍然是一件大事—没有其他模型在一系列广泛使用的基准测试中击败GPT-4。”

与其前身相比，Claude 3模型还具有增强的视觉能力，使其能够处理照片、图表和图解等视觉格式，类似于ChatGPT的DALLE-3和Google的Gemini。

除此之外，Anthropic在Claude 3通过在训练过程中使用合成数据实现其能力提升，也就是说，Claude 3的原创能力没有那么强。

据外媒实测，Opus在能力上类似于ChatGPT-4，它不能编写原创的笑话（所有笑话似乎都来自网络），在总结信息和以各种风格撰写文本方面表现得相当不错，对于逻辑分析单词问题也表现得相当好，而且幻觉似乎确实相对较低（但在询问一些更为晦涩的话题时，还是看到了一些错误的回答）。

Anthropic在安全性方面可以说做足了功课，也正是因为重视AI安全，Anthropic当年才与OpenAI分家。Anthropic表示将确保安全措施与AI性能的进步保持同步，并且Claude 3模型“目前几乎没有潜在的灾难风险”。Anthropic也一直在进行红队测试，并且制定了一套框架，用于评估和减轻 AI 模型可能带来的潜在风险，路线比GPT更保守。

支持图像输入努力避免人工智能偏见

Anthropic此次推出的三个模型都支持图像输入，这是一项需求量很大的功能，特别是对于图像中的文本识别等应用。许多企业需要从图像、文档、图表和图表中提取信息的用例，Claude 3可以来帮忙了。

“许多客户的数据要么是高度非结构化的，要么是某种视觉格式的，仅仅必须手动复制这些信息才能使其与生成式人工智能工具交互的过程就相当麻烦了。”Anthropic 总裁兼联合创始人 Daniela 道出了如今用户的痛点。

此前，人们发现谷歌的Gemini在生成图像时存在一些BUG。例如，用户让Gemini生成过歧视性照片。谷歌的回应是禁用 Gemini 的图像生成功能并发表道歉，称正在努力进行改善。但是有专家表示，这种情况说明了人工智能偏见依然存在。

导致人工智能存在偏见的原因很简单，主要是因为训练数据偏见、算法偏见、特征选择偏见和标签偏见，也有可能是因为数据缺乏多样性。

Daniela也承认，用目前的方法可能无法实现完全无偏见的人工智能：“我认为，创建一个完全中立的生成式人工智能工具几乎是不可能的，不仅在技术上，而且还因为并不是每个人都同意什么是中立。”

那么Anthropic如何减少人工智能偏见带来的影响呢？其战略的一部分是“宪法人工智能”，也就是说模型经过调整以遵循“宪法”中定义的原则。2023年4月，Anthropic开源宪法人工智能（Constitutional AI）引起了大范围讨论，Anthropic一直都在争做“遵纪守法”的AI。

微软携手OpenAI Anthropic“背靠”亚马逊？

背靠大树好乘凉，Anthropic也深谙此理，Claude 3发布后，亚马逊也透露了更多和Anthropic合作的细节。

亚马逊AWS宣布，Anthropic的Claude 3系列最先进模型将在Amazon Bedrock上提供，增强了各种规模的客户快速测试、构建和部署生成人工智能（AI）应用程序的能力。Claude 3模型具有高级视觉能力，能够处理各种数据格式，分析图像数据，满足客户对更好理解图表、图表、技术图解、照片等视觉资产的需求。

Amazon Bedrock的客户，包括ADP、Intuit、Pfizer等，已经在构建生成AI应用程序方面使用Anthropic的Claude技术，并将在未来几周内获得Claude 3模型。Anthropic的Claude 3模型扩展了Amazon Bedrock的生成AI模型范围，提供了更多的模型选择。

Amazon Bedrock的客户也已经在使用Claude构建生成AI应用程序，包括从体育到旅行再到生命科学等各个行业的组织。这些组织使用Claude模型自动化任务、创建新的用户界面应用程序。

Anthropic还表示将使用AWS Trainium和Inferentia芯片构建、训练和部署其未来的基础模型，并表示AWS将成为Anthropic的主要云提供商。Anthropic的Claude 3模型将进一步丰富Amazon Bedrock的生成AI模型选择，给客户更多的模型选择权。

结语

无论如何，Claude3模型发布都标志着人工智能领域的又一次巨大飞跃，这不仅是技术的竞赛，更是有关创新和安全的一场“持久战”。

不同公司和团队的竞争推动了技术的不断演进，也让我们见证了人工智能在不同领域的广泛应用。在技术进步的同时，与之相伴的挑战是其安全性和道德性。Anthropic对于人工智能偏见的关注以及对模型安全性的强调，或许会成为其与OpenAI竞争的重要筹码。

一面是追求商业利益、采取激进的发展策略、还陷入与马斯克纷争的OpenAI，一面是保守派、遵纪守法、团队同样强大的Anthropic，你看好哪家公司呢？