千呼万唤,苹果终于官宣了 Apple Intelligence。
这一次,让我们直接略过 IOS 18、MacOS Sequoia 以及其他 iPadOS、watchOS等等的更新,直接来看本次大会最受外界关注的苹果的AI进展。
(插播一句,Apple Vision Pro 将于6月28日在中国大陆首发)
苹果定义的好用AI
在正式介绍 Apple Intelligence 之前,CEO库克先简单说明了一下苹果认为一个好用的AI产品应该具备什么条件。
他提到了5个关键词:功能强大、简洁易用、完美集成、个人定制、注重隐私。
言外之意似乎是在向观众们解释,为什么苹果这么久也没在这波AI浪潮中推出什么产品或功能(因为咱们注重这些,而这些都很难,市面上的产品们也并没做好......)。
高级副总裁克雷格上来先拉踩了一波其他产品。
“目前市面上不乏一些让人眼前一亮的聊天工具,它们能利用全世界的知识来执行大量的任务,但很少能充分了解你或你的需求。”
所以,Apple Intelligence 的核心产品力,就是更懂你的个人化智能系统。
概括来说,Apple Intelligence 主要通过自然语言与用户交互、“读懂”并生成图片、直接操作其他Apps、以及理解只属于个人的其他信息。
在推出时间上,「四木相对论」还是要给广大消费者划个重点:
Apple Intelligence将于今年夏天在美国推出英语试用版本。今年秋天将在iOS 18、iPadOS 18、macOS Sequoia中上线beta版本,其他功能及语言支持将在明年陆续推出。
老产品Siri,获得新生
首先来看自然语言方面。
最先介绍的,是Siri的更新。苹果最终还是选择继续迭代Siri这个已经上线13年的老产品,而不是“换号重开”。
Siri有了新的“皮肤”和 Logo。在实际交互时,用户唤醒Siri后出现的不再是屏幕下方那个转动的小球,而是颇为酷炫的闪烁扩散的光波。
在演示demo中,用户可以更自然的与Siri进行语音交流。
比如,当用户发觉自己表达有问题时,可以迅速修正,Siri可以准确识别更正后的内容。
此外,用户可以在连续对话中使用代词,Siri能够根据已有的上下文知道用户在后续对话中指代的是前文的哪个对象。
在demo演示中,用户询问了Siri一个目的地的天气,并让Siri创建一个明天去那里徒步的日程,Siri能够准确识别出用户所说的“那里”是什么地方。
在demo中,Siri大约需要4秒钟来完成这一指令。
考虑到模型需要携带上下文来理解用户的语义,并调用日历App的API完成日程创建的任务后才会返回,这一等待时延还是相对可以接受的。
另一项交互上的更新,是允许与Siri通过打字的方式完成对话,这一更新直接干掉了ChatGPT App。
用户只需要在屏幕下方快速轻点两下,即可唤起Siri的输入框,通过打字的方式完成指令的输入。
这个无需打开、跳转至任何App的交互方式,直接将ChatGPT等一众大模型App所取代,苹果直接将用户使用AI功能的入口放在了系统最前端——锁屏页面上。
另一个主要能力,是支持Siri在用户发起指令时,感知当前屏幕上的实时信息。
在demo演示中,用户可以直接在信息App的页面,让Siri将当前对话窗口中的地址信息添加到这个对话用户的联系人名单中。
Siri可以在屏幕信息中找到用户所说的“地址信息”,并能够识别该对话人对应通讯录中的哪一个。
此外,Siri还可以对其他App进行直接操作。
用户可以直接通过自然语言描述,让Siri找到符合搜索条件的照片,并能够通过语音,让Siri直接对照片进行编辑操作。
在执行照片搜索任务时,demo中Siri的速度快的有点离谱,几乎是语音命令刚结束1秒,搜索结果就已经出现了。在随后的照片编辑中,Siri自动调整了照片的亮度和对比度。
在结束编辑后,用户依然可以继续通过语音输入,让Siri把这张图片添加到备忘录中的指定位置。
除了Siri之外,其他与文本相关的演示内容都是比较常规的大模型应用,比如总结文章要点、润色邮件、修正语法错误等。
“不用再费劲琢磨prompt了”
语言功能之后,苹果介绍了Apple Intelligence中的图像相关功能。
首先是非常有意思的自创emoji功能,苹果给它起了个酷炫的名字,Genmoji。
用户可以在发送emoji的位置,添加一个自创的新的emoji。通过自然语言直接描述,或使用照片图库中已经识别出的不同人物的形象,用户可以创建全新的自定义emoji。
除了emoji外,Apple Intelligence 还允许用户通过模型生成图片。
Apple Intelligence 主打的是通过预设好的参数来降低生成图片的门槛。
用户可以通过选择预设好的主题、对象、服装、配置、场景等词条,来快速生成预览图,“不用再费心琢磨提示词”。
另外,图片生成全部是在设备本地运行的,这意味着用户不用担心成本问题,想用多少次就用多少次。
当然,如果预设的关键词、图片风格不够,用户也可以通过输入单词的形式来添加自定义关键词,或者手动选择动画、素描或插图中的任意一种图片风格。
总之,用户不需要写大段的、复杂的prompt。
备忘录App中也集成了图片生成功能,新的工具的名字叫做 Image Wand。
Image Wand支持用户用Apple Pencil 将草图圈起来,来触发一个自动生成的图片生成区域,Apple Intelligence会结合草图及周围的笔记,自动创建一张图片。
Apple Intelligence还支持用户快速修图。
只需要在照片图库中打开编辑,全新的“清除”功能允许用户圈选需要消除的对象,Apple Intelligence会根据图片内容来不改动主体的情况下智能一键去除选定的对象。
如果你还是想用ChatGPT...
最后,克雷格介绍了苹果为了不让用户因为要使用其他模型或工具而频繁切换App做出的“牺牲”。
当用户发给Siri的指令让Siri“觉得”可能ChatGPT会有更好的答案时,Siri会询问用户是否允许它使用ChatGPT来完成任务。
当用户允许后,Siri会直接调用ChatGPT,并直接返回ChatGPT给出的答案。
用户还可以在“编写”功能中直接向ChatGPT发起指令,并且可以使用ChatGPT的图片生成功能。
值得注意的是,没有ChatGPT账号的用户并不需要注册OpenAI账号就能够通过上述的方式使用ChatGPT。
而ChatGPT的付费订阅用户则可以主动绑定自己的OpenAI账号,并使用ChatGPT的付费能力(比如最新版的GPT-4o模型)。
“重新定义AI隐私安全”
除了核心产品能力的介绍,克雷格还在开头简单说明了Apple Intelligence的技术架构。
得益于苹果在芯片领域的不断深耕,在A15 Pro及所有M系列芯片的设备上,模型都将部署在设备本地,并利用本地资源进行计算。
当用户的需求需要调用到更大的云端模型时,设备将会在征得用户的同意后,调用部署在云端的更大的模型,整个过程在芯片级保护用户隐私数据的安全。
苹果为之创造了一个新的名词:Private Cloud Compute(私人云计算)。
Private Cloud Compute 相比于其他公有云服务主要提升的是隐私数据安全保护。
所有计算都将运行在Apple芯片的服务器上,提供与iPhone同样的芯片级别保护能力。
当用户发出一次请求后,Apple Intelligence首先会分析这次请求是否能够在设备端本地直接处理完成。
如果不行,则会选择使用 Private Cloud Compute 服务请求云端更大的模型来完成任务。
整个过程中,Apple Intelligence仅会传输跟本次任务强相关的数据,苹果不会存储任何用户的数据,数据仅被用来完成用户的请求。
并且同iPhone、iPad、Mac一样,设备可以拒绝与未提供公开检查报告的服务器进行数据交互(以上均为“据说”)。
据此,“苹果为AI隐私设定了新的标准”。
迷雾中的端侧模型
纵观本次发布会上的所有AI功能,除了Genmoji富有创意之外,其他AI功能似乎都没有那么“新颖”。相比之下,将模型部署在本地设备更值得关注。
不同于微软直接官宣的Phi-Silica,发布会上并没有公开任何本地设备所搭载的模型信息,不论是型号还是参数量。
虽然苹果的研究团队于今年3月14日在arXiv上发表了 MM1 多模态大模型的技术论文,但对比Phi-3家族中最小的仅有3B参数的Phi-Silica,MM1的参数量足足大了10倍。
Apple Intelligence 最终选择的端侧小模型如果不是其他的未发布的研究成果,很有可能是具有更小规模参数的缩小版 MM1 大模型。
本次发布会上苹果也直接官宣了跟OpenAI的合作,也不排除OpenAI对 Apple Intelligence 的端侧小模型提供了技术支持。
不过考虑到 OpenAI 基本是与英伟达强绑定,技术架构肯定也会基于CUDA来优化迭代,苹果不太可能放弃投入了十多年研发的M系列自家芯片,不基于硬件架构和软件生态来研发自家的端侧模型。
毕竟,苹果非常在意“软硬一体”所构建的良好体验与产品壁垒。
继微软推出 AI PC 后,苹果也选择将一个可能相对较小的模型部署在设备本地,未来肯定会有越来越多的端侧模型被直接集成在各种智能设备上。
这些小模型被期望能够响应大多数用户的请求。
通过本地部署、本地运算的模式,提供给用户更快响应、没有算力成本负担的AI解决方案,应该会是未来各种智能设备集成AI能力的主要路线。
当然,端侧模型实际的效果如何,只能等大规模用户真实的需求所检验了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.