网易首页 > 网易号 > 正文 申请入驻

大模型那么多,该怎么选

0
分享至

先讲个WPS海外版大模型选型的故事。

据金山办公全球业务副总经理张宁介绍,金山办公2023年初宣布 All in AI。WPS海外版在AI应用方面,确定了两个方向,一是拼写检查,一是自动生成PPT。

AI应用方向、应用场景确定了,接下来非常重要的就是大模型的选择。

一开始,团队选择了在参数、长文本处理等各个技术特性方面都表现非常优秀的大模型,但从应用效果来看,却非常不好。例如,没有出错的、不该删除的语句,却被“拼写检查”认为是错的。

接下来,团队又开始针对各个知名或重要大模型,进行各种测试,每个模型和测试都要花去不少时间。

直到他们遇到亚马逊云科技中国区行业集群总经理沈涛。

他的核心观点是:当下,各类基础模型层出不穷,其中并不存在最好或最差的基础模型,最重要的是企业需要找到最匹配自身业务场景的基础模型。

亚马逊云科技正致力于不断降低生成式AI技术的应用门槛,并推出了基于全托管的生成式AI服务Amazon Bedrock。企业可以通过API访问从文本到图像的一系列强大的基础模型,实现模型的快速选择与部署,加速生成式AI应用落地,推动业务创新与商业变革。

WPS海外版AI应用开发团队开始采用亚马逊云科技的MaaS服务——Amazon Bedrock。一下子使大模型的测试和选择变得非常容易。

WPS Office AI应用大模型的选择过程,是现在很多AI应用开发过程经常遇到的典型问题。它的选型过程,其实反映出了当前AI应用开发商在大模型选择时存在的几个重大误区。

AI应用的大模型误区

当前AI应用正在不断涌现。但海比研究院调查发现,各种AI应用在选择自己的大模型时,普遍存在三个误区。

第一,按大模型的评测排名来选,得分越高、排名越前越好。或者,看哪个模型的参数越大、训练数据量越多、文本窗口越长、多模型能力越好,版本越新,就觉得哪个好。

但WPS的实践表明,用这种方式选出来,往往和自己的应用匹配度并不理想,不能满足自己的应用场景。

第二,直接和重要的大模型厂商一个一个分别进行接触,通过其官方渠道进行API调用、测试。

WPS的实践也表明,用这种方式进行大模型选型,其选择成本非常高,花的时间非常多,人力投入非常高,测试成本也不低。

最重要的是,时间成本非常高。

第三,为大模型的不可能三角所困。大模型存在不可能三角,即通用性、可靠性和经济性,一个大模型只能同时占有两个。

很多AI应用开发者面对这种情况,开始陷入纠结,不知道到底该怎么决策。

海比研究院认为,产生这这些误区的根本原因在于,很多AI应用的开发者,不清楚以下大模型选择的两大要素:

第一, AI应用的大模型选择框架,应该考虑哪些重要方面?

第二, 大模型的选择实施路径,是从每个大模型厂商直接进行测试比较,还是从MaaS平台进行测试比较?

AI应用的大模型选择框架

大模型是一个战略性、基础性的数智化产品,它的选型是需要综合考虑多方要素,而不能简单地唯参数论、唯产品论。

海比研究院在中国软件行业协会、清华大学、北京大学、国家应用软件产品质量监督检验检测中心等的支持与指导下,推出了“数智产品六力选型框架”。

对于大模型的选择,海比研究院“数智产品六力选型框架”同样适应。

数智产品六力选型框架


资料来源:海比研究院

对于任何AI应用的研发,在选择大模型时,要综合考虑大模型厂商的品牌能力、产品能力、技术能力、服务能力、安全能力、价值能力。

品牌能力主要考察大模型厂商的公司实力。最重要的是考虑大模型厂商的可持续性,能否陪伴自己健康持续发展。如果自己选择的大模型厂商中途倒闭了、产品不更新了,都会对自己的AI应用产生巨大影响。

现在国内大模型市场是“百模大战”,未来肯定会有很多厂商的大模型将退出市场。因此,大模型品牌的选择就尤为重要。

产品能力主要考察大模型产品本身的符合度、性能和体验。评估大模型的产品,不能唯技术论、唯排名论,一定要注意和自己AI应用的应用场景相匹配。排名高的大模型不一定适合自己的应用场景。每个大模型厂商都有自己的核心能力,这个核心能力往往和应用场景关系非常紧密。

就像前面提到的WPS的拼写检查,一些排名靠前、技术上很惊艳的大模型就不适合。例如,在文档中,经常会有一些英文或其他语言原文的引用,但原文可能存在一些表达不够完善或语病方面的问题。很多大模型就会把这种情况当作“问题”替换或处理掉,但这是不对的。

技术能力主要考察大模型厂商在技术上的成熟度,同时对先进、前沿技术的跟进情况。既要在技术保证大模型产品的稳定性、可靠性,要有支撑商业应用的足够的成熟度;又要保证大模型厂商能随时跟上最新的技术迭代,不会被新技术的迭代所淘汰。

服务能力主要考察大模型厂商在AI应用开发时能否提供深度的技术支持。大模型和AI应用对接时,往往需要做很多优化、精调等各方面的工作,如果没有大模型厂商的深度支持,可能会造成很多不必要的损失。

安全能力主要考察大模型厂商在AI应用时的数据安全。AI应用往往会涉及到开发者的很多数据资产,以及使用者的隐私信息,大模型厂商需要这些方面给予严格的保护。同时,AI应用的合规性要求也越来越高,大模型厂商的合规能力也要高度重视。

价值能力主要考察大模型厂商的标杆用户,适合的目标客户,以及投入产出。每个厂商都有自己的目标客户群,也会涉及到不同的投入成本。

AI应用开发者可以通过海比研究院“数智产品六力选型框架”对大模型产品和厂商进行深度比较。要说明一点的是,每个能力的权重,可以根据自身的实际情况进行调整。

例如,当前的AI应用最看重产品快速实现,则可以把产品能力的权重放大,重点考察大模型产品本身和AI应用场景的匹配度。

AI应用的大模型选择路径

在当前阶段,大模型的选择路径也AI应用开发商需要注意的问题。

海比研究院调查发现,当前大模型的选择主要存在两种路径。第一,对市场上主流的大模型厂商,每个大模型厂商直接测试、评估,最终进行决策;第二,找类似亚马逊云科技Amazon Bedrock这样的MaaS(模型即服务)平台,在平台上一站式对各种大模型进行测试、评估。

海比研究院认为,在当前阶段,从MaaS平台进行大模型的选择是比较好的路径。

因为这种路径能比较好地解决大模型选择的三大挑战:第一是如何实现生成式AI的快速部署;第二是如何降低生成式AI技术的应用门槛;第三是如何确保使用生成式AI时代的数据隐私与安全性。

并且,第二种路径能为AI应用开发商大大节省大模型的选型成本,尤其是时间成本。

现在的MaaS服务基本提供了市场上的主流大模型,可以一站式地得到,不用一个一个花时间去找。并且,MaaS平台还提供了非常方便的API接口,可以快速选择和切换大模型;为AI应用的测试、精调、工程化等也提供了很多服务。这些都可以为AI应用开发商测试和评估大模型节省大量时间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
极品身型!这上围和蛮腰,好凶!

极品身型!这上围和蛮腰,好凶!

记录平远
2024-07-04 00:56:18
重庆老板将少女藏地下室7年,使她怀孕5次,却被其妻子发现了

重庆老板将少女藏地下室7年,使她怀孕5次,却被其妻子发现了

星辰故事屋
2024-06-18 18:29:55
武汉也要抢京港高铁?合肥冷笑南昌反对,想在赣西暗度陈仓没可能

武汉也要抢京港高铁?合肥冷笑南昌反对,想在赣西暗度陈仓没可能

华庭讲美食
2024-07-03 12:34:57
当不成总统了?罢免信号突响!拜登紧急对华致电,提了3个要求

当不成总统了?罢免信号突响!拜登紧急对华致电,提了3个要求

匹夫来搞笑
2024-07-03 22:44:27
两岸突发对峙,台舰艇来得很快,大陆硬控,港媒:大动作还在后头

两岸突发对峙,台舰艇来得很快,大陆硬控,港媒:大动作还在后头

千里持剑
2024-07-03 08:58:09
朱令案嫌疑人现状:伯父是副国,移民澳洲25年,嫁白男生一对儿女

朱令案嫌疑人现状:伯父是副国,移民澳洲25年,嫁白男生一对儿女

历史八卦社
2023-12-25 11:32:40
至今未登上正式比赛!郭士强回应赵维伦离队:因学业返回意大利

至今未登上正式比赛!郭士强回应赵维伦离队:因学业返回意大利

狼叔评论
2024-07-04 00:17:04
84年回家我救下一女孩,分别时她塞我一张纸条,看到内容我愣住了

84年回家我救下一女孩,分别时她塞我一张纸条,看到内容我愣住了

小月文史
2024-06-24 18:12:30
同学聚会大家问女儿高考成绩,想说600,谎称300,晚上收短信愣住

同学聚会大家问女儿高考成绩,想说600,谎称300,晚上收短信愣住

船长与船1
2024-07-03 14:53:00
两性疑问:为什么男生更喜欢从后面来

两性疑问:为什么男生更喜欢从后面来

坟头长草
2024-05-30 16:33:38
重庆一富婆将美男子藏地下室2年,06年丈夫才找到,结局意想不到

重庆一富婆将美男子藏地下室2年,06年丈夫才找到,结局意想不到

一场奇遇日记
2024-06-26 21:26:34
“500万瞬间没了”!上海法拉利自燃后续:代驾疑全程一档开车,车主欲起诉代驾公司

“500万瞬间没了”!上海法拉利自燃后续:代驾疑全程一档开车,车主欲起诉代驾公司

上观新闻
2024-07-01 10:58:38
印度破纪录了,恒河水被洗到“拉丝”,首都或将不再适合人类居住

印度破纪录了,恒河水被洗到“拉丝”,首都或将不再适合人类居住

起喜电影
2024-07-03 18:06:28
哈尔滨楼市全军覆没,房价三连跌,地铁口老破小跌成3000多元

哈尔滨楼市全军覆没,房价三连跌,地铁口老破小跌成3000多元

有事问彭叔
2024-07-03 15:21:21
以色列可能完了,碰到茬子了:兵不血刃占领拉法却被63万大军包围

以色列可能完了,碰到茬子了:兵不血刃占领拉法却被63万大军包围

文雅笔墨
2024-07-04 03:18:33
马莱莱玩大了!错失绝佳进球后,续约前景不乐观,申花态度很明确

马莱莱玩大了!错失绝佳进球后,续约前景不乐观,申花态度很明确

罗掌柜体育
2024-07-03 12:16:54
秦奋成都太古里被偶遇,真人很矮,打扮奇怪,疑回国看孩子!

秦奋成都太古里被偶遇,真人很矮,打扮奇怪,疑回国看孩子!

古希腊掌管月桂的神
2024-07-03 10:17:19
300公里!辽宁两条高速公路将建设,项目前期中标了!

300公里!辽宁两条高速公路将建设,项目前期中标了!

笑熬浆糊111
2024-07-03 14:34:34
我在大凉山支教,每月工资600元,却待了8年,只因喜欢孩子的笑脸

我在大凉山支教,每月工资600元,却待了8年,只因喜欢孩子的笑脸

真实人物采访
2024-07-03 15:10:02
懂套路了!山东泰山官方连发三条好消息,冲淡球迷现在的怨气

懂套路了!山东泰山官方连发三条好消息,冲淡球迷现在的怨气

糗糗球事
2024-07-03 13:20:25
2024-07-04 05:38:44
海比研究院
海比研究院
企业服务研究者
832文章数 280关注度
往期回顾 全部

头条要闻

美国众议院民主党人考虑要求拜登退出竞选

头条要闻

美国众议院民主党人考虑要求拜登退出竞选

体育要闻

阿根廷是否因误判获益?斯卡洛尼:在卡塔尔你们也这么说

娱乐要闻

刘亦菲唐嫣深夜晒照,美女贴贴好养眼

财经要闻

王忠民:AI时代切勿用周期思维做投资

科技要闻

吴世春:"中国大模型五虎"想跑出来非常难

汽车要闻

巴黎4S店价格对比 同款车型中国售价打对折

态度原创

游戏
时尚
数码
家居
军事航空

外媒评选PS5平台15款难白金游戏 《老头环》在列

你好,我那个先天韭菜圣体的朋友!

数码要闻

华为又有新平板?全系麒麟芯片加持,有望搭载“纯血”鸿蒙

家居要闻

温柔简约 浅色基调与明亮空间的协奏

军事要闻

美空军研发第六代战机陷入资金困境

无障碍浏览 进入关怀版