网易首页 > 网易号 > 正文 申请入驻

大模型那么多,该怎么选

0
分享至

先讲个WPS海外版大模型选型的故事。

据金山办公全球业务副总经理张宁介绍,金山办公2023年初宣布 All in AI。WPS海外版在AI应用方面,确定了两个方向,一是拼写检查,一是自动生成PPT。

AI应用方向、应用场景确定了,接下来非常重要的就是大模型的选择。

一开始,团队选择了在参数、长文本处理等各个技术特性方面都表现非常优秀的大模型,但从应用效果来看,却非常不好。例如,没有出错的、不该删除的语句,却被“拼写检查”认为是错的。

接下来,团队又开始针对各个知名或重要大模型,进行各种测试,每个模型和测试都要花去不少时间。

直到他们遇到亚马逊云科技中国区行业集群总经理沈涛。

他的核心观点是:当下,各类基础模型层出不穷,其中并不存在最好或最差的基础模型,最重要的是企业需要找到最匹配自身业务场景的基础模型。

亚马逊云科技正致力于不断降低生成式AI技术的应用门槛,并推出了基于全托管的生成式AI服务Amazon Bedrock。企业可以通过API访问从文本到图像的一系列强大的基础模型,实现模型的快速选择与部署,加速生成式AI应用落地,推动业务创新与商业变革。

WPS海外版AI应用开发团队开始采用亚马逊云科技的MaaS服务——Amazon Bedrock。一下子使大模型的测试和选择变得非常容易。

WPS Office AI应用大模型的选择过程,是现在很多AI应用开发过程经常遇到的典型问题。它的选型过程,其实反映出了当前AI应用开发商在大模型选择时存在的几个重大误区。

AI应用的大模型误区

当前AI应用正在不断涌现。但海比研究院调查发现,各种AI应用在选择自己的大模型时,普遍存在三个误区。

第一,按大模型的评测排名来选,得分越高、排名越前越好。或者,看哪个模型的参数越大、训练数据量越多、文本窗口越长、多模型能力越好,版本越新,就觉得哪个好。

但WPS的实践表明,用这种方式选出来,往往和自己的应用匹配度并不理想,不能满足自己的应用场景。

第二,直接和重要的大模型厂商一个一个分别进行接触,通过其官方渠道进行API调用、测试。

WPS的实践也表明,用这种方式进行大模型选型,其选择成本非常高,花的时间非常多,人力投入非常高,测试成本也不低。

最重要的是,时间成本非常高。

第三,为大模型的不可能三角所困。大模型存在不可能三角,即通用性、可靠性和经济性,一个大模型只能同时占有两个。

很多AI应用开发者面对这种情况,开始陷入纠结,不知道到底该怎么决策。

海比研究院认为,产生这这些误区的根本原因在于,很多AI应用的开发者,不清楚以下大模型选择的两大要素:

第一, AI应用的大模型选择框架,应该考虑哪些重要方面?

第二, 大模型的选择实施路径,是从每个大模型厂商直接进行测试比较,还是从MaaS平台进行测试比较?

AI应用的大模型选择框架

大模型是一个战略性、基础性的数智化产品,它的选型是需要综合考虑多方要素,而不能简单地唯参数论、唯产品论。

海比研究院在中国软件行业协会、清华大学、北京大学、国家应用软件产品质量监督检验检测中心等的支持与指导下,推出了“数智产品六力选型框架”。

对于大模型的选择,海比研究院“数智产品六力选型框架”同样适应。

数智产品六力选型框架


资料来源:海比研究院

对于任何AI应用的研发,在选择大模型时,要综合考虑大模型厂商的品牌能力、产品能力、技术能力、服务能力、安全能力、价值能力。

品牌能力主要考察大模型厂商的公司实力。最重要的是考虑大模型厂商的可持续性,能否陪伴自己健康持续发展。如果自己选择的大模型厂商中途倒闭了、产品不更新了,都会对自己的AI应用产生巨大影响。

现在国内大模型市场是“百模大战”,未来肯定会有很多厂商的大模型将退出市场。因此,大模型品牌的选择就尤为重要。

产品能力主要考察大模型产品本身的符合度、性能和体验。评估大模型的产品,不能唯技术论、唯排名论,一定要注意和自己AI应用的应用场景相匹配。排名高的大模型不一定适合自己的应用场景。每个大模型厂商都有自己的核心能力,这个核心能力往往和应用场景关系非常紧密。

就像前面提到的WPS的拼写检查,一些排名靠前、技术上很惊艳的大模型就不适合。例如,在文档中,经常会有一些英文或其他语言原文的引用,但原文可能存在一些表达不够完善或语病方面的问题。很多大模型就会把这种情况当作“问题”替换或处理掉,但这是不对的。

技术能力主要考察大模型厂商在技术上的成熟度,同时对先进、前沿技术的跟进情况。既要在技术保证大模型产品的稳定性、可靠性,要有支撑商业应用的足够的成熟度;又要保证大模型厂商能随时跟上最新的技术迭代,不会被新技术的迭代所淘汰。

服务能力主要考察大模型厂商在AI应用开发时能否提供深度的技术支持。大模型和AI应用对接时,往往需要做很多优化、精调等各方面的工作,如果没有大模型厂商的深度支持,可能会造成很多不必要的损失。

安全能力主要考察大模型厂商在AI应用时的数据安全。AI应用往往会涉及到开发者的很多数据资产,以及使用者的隐私信息,大模型厂商需要这些方面给予严格的保护。同时,AI应用的合规性要求也越来越高,大模型厂商的合规能力也要高度重视。

价值能力主要考察大模型厂商的标杆用户,适合的目标客户,以及投入产出。每个厂商都有自己的目标客户群,也会涉及到不同的投入成本。

AI应用开发者可以通过海比研究院“数智产品六力选型框架”对大模型产品和厂商进行深度比较。要说明一点的是,每个能力的权重,可以根据自身的实际情况进行调整。

例如,当前的AI应用最看重产品快速实现,则可以把产品能力的权重放大,重点考察大模型产品本身和AI应用场景的匹配度。

AI应用的大模型选择路径

在当前阶段,大模型的选择路径也AI应用开发商需要注意的问题。

海比研究院调查发现,当前大模型的选择主要存在两种路径。第一,对市场上主流的大模型厂商,每个大模型厂商直接测试、评估,最终进行决策;第二,找类似亚马逊云科技Amazon Bedrock这样的MaaS(模型即服务)平台,在平台上一站式对各种大模型进行测试、评估。

海比研究院认为,在当前阶段,从MaaS平台进行大模型的选择是比较好的路径。

因为这种路径能比较好地解决大模型选择的三大挑战:第一是如何实现生成式AI的快速部署;第二是如何降低生成式AI技术的应用门槛;第三是如何确保使用生成式AI时代的数据隐私与安全性。

并且,第二种路径能为AI应用开发商大大节省大模型的选型成本,尤其是时间成本。

现在的MaaS服务基本提供了市场上的主流大模型,可以一站式地得到,不用一个一个花时间去找。并且,MaaS平台还提供了非常方便的API接口,可以快速选择和切换大模型;为AI应用的测试、精调、工程化等也提供了很多服务。这些都可以为AI应用开发商测试和评估大模型节省大量时间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA | 丁彦雨航有望签约广州队

CBA | 丁彦雨航有望签约广州队

北青网-北京青年报
2024-12-04 12:45:06
手机史上最“短命”的三台机皇,加一起都没活过1天!

手机史上最“短命”的三台机皇,加一起都没活过1天!

科技海岸线
2024-11-24 19:00:03
建议中老年人:别太节俭,5种小零食该吃吃,不但解馋还对身体好

建议中老年人:别太节俭,5种小零食该吃吃,不但解馋还对身体好

简食记工作号
2024-12-04 00:31:30
江苏徐州传出多声巨响?刚刚,住建部门回应了!

江苏徐州传出多声巨响?刚刚,住建部门回应了!

鲁中晨报
2024-12-04 21:57:09
我见过最令人讨厌的说话方式:习惯性反问

我见过最令人讨厌的说话方式:习惯性反问

洞见
2024-11-12 09:14:32
外媒:以色列对叙利亚发动空袭

外媒:以色列对叙利亚发动空袭

参考消息
2024-12-03 20:40:19
朝鲜女兵自述:入伍自动绝经,七年服务百位长官,退役后无人愿娶

朝鲜女兵自述:入伍自动绝经,七年服务百位长官,退役后无人愿娶

历史八卦社
2023-11-14 22:06:29
江苏宿迁,女子与拆迁队发生冲突致对方一死六伤,辩称是正当防卫

江苏宿迁,女子与拆迁队发生冲突致对方一死六伤,辩称是正当防卫

雪峰说法
2024-12-03 06:55:02
解放军跨境支援泰国,外界突然意识到,我国预演了一场小规模战争

解放军跨境支援泰国,外界突然意识到,我国预演了一场小规模战争

再遇历史
2024-12-04 14:32:10
亚冠送礼!35岁王大雷失误:人墙漏出近角,对手任意球偷袭

亚冠送礼!35岁王大雷失误:人墙漏出近角,对手任意球偷袭

叶青足球世界
2024-12-04 18:59:32
鸿蒙版微信会被对方看到自己的备注 张军:现已修复

鸿蒙版微信会被对方看到自己的备注 张军:现已修复

手机中国
2024-12-03 17:28:07
球迷吐槽洛佩特吉:他经纪人多牛?这骗子能执教皇马和西班牙啊?

球迷吐槽洛佩特吉:他经纪人多牛?这骗子能执教皇马和西班牙啊?

直播吧
2024-12-04 16:52:22
卡尔:约基奇应该准备好连续赢得他的第五个MVP了

卡尔:约基奇应该准备好连续赢得他的第五个MVP了

直播吧
2024-12-04 16:52:23
中国胸围最大的10位女明星排行榜,第一名胸围高达95cm!

中国胸围最大的10位女明星排行榜,第一名胸围高达95cm!

十二生肖运势分析
2024-12-04 05:30:02
海上“械斗”?中菲共10艘船大混战,菲律宾船差点被中国海警撞翻

海上“械斗”?中菲共10艘船大混战,菲律宾船差点被中国海警撞翻

海枫观天下
2024-12-04 17:16:15
以后电瓶车无需频繁更换电池!比亚迪与台铃达成战略合作:共同研发车电同寿电池【附动力锂电池行业现状】

以后电瓶车无需频繁更换电池!比亚迪与台铃达成战略合作:共同研发车电同寿电池【附动力锂电池行业现状】

前瞻网
2024-12-04 17:57:12
16板,19板,19板,抱歉约基奇:你的篮板王悬了

16板,19板,19板,抱歉约基奇:你的篮板王悬了

篮球大视野
2024-12-04 21:24:31
“这是2024年的大韩民国吗?”6小时戒严令下的恐惧、混乱与愤怒

“这是2024年的大韩民国吗?”6小时戒严令下的恐惧、混乱与愤怒

澎湃新闻
2024-12-04 17:18:39
别轻易满足,严格意义上说,歼-35的制造工艺要比F-35差了很多

别轻易满足,严格意义上说,歼-35的制造工艺要比F-35差了很多

军武数据库
2024-12-03 16:28:26
2024年内娱85花“成绩单”:杨幂惨败,刘亦菲遗憾,第一实至名归

2024年内娱85花“成绩单”:杨幂惨败,刘亦菲遗憾,第一实至名归

楼兰娱姐
2024-12-03 19:49:15
2024-12-04 22:48:49
海比研究院
海比研究院
企业服务研究者
846文章数 279关注度
往期回顾 全部

头条要闻

尹锡悦与韩总理、执政党领导层会面 讨论后续对策

头条要闻

尹锡悦与韩总理、执政党领导层会面 讨论后续对策

体育要闻

哈登,我不做大哥好多年

娱乐要闻

琼瑶在家中自杀离世,千字遗书曝光

财经要闻

牛市的悲歌

科技要闻

被字节起诉的实习生,写了AI顶会最佳论文

汽车要闻

表现够全能 柴油版二代哈弗H9或许更适合家用

态度原创

艺术
数码
本地
旅游
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

数码要闻

内置屏幕的 HomePod 预计将于 2025 年底推出

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

旅游要闻

兰州“曼哈顿”火爆出圈,大量游客前往打卡

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版