网易首页 > 网易号 > 正文 申请入驻

产业之声 | 生成式AI驱动的数据要素价值创造新模式

0
分享至

编者按

数据要素正在以投入替代、价值倍增和资源优化三种模式在千行百业创造价值发挥作用。回顾人工智能的发展历程,算法从统计、机器学习发展到深度学习,算力从单片机发展到GPU,都是人类经验逐步让渡于海量数据的过程,也是人类带着数据冲击机器智能新上限的经历。从人类既定经验为主到从数据中学习规律为主,从解决单一问题转为激发通用“智能”的新模式,将如何体现并发挥数字要素的上述三重价值,需要我们重新审视。

在大模型发展的道路上,每一次通用大模型能力的跃迁,都会形成对散点应用和解决的碾压;大模型通用智能带来的价值成效,将超过若干个碎片化场景应用的总和。基于上述的发现与认识,再来重新审视数据要素议题的前提,即“数据要素如何创造价值”这一问题时, 我们形成了两点面向未来的思考:第一,大模型发展与数据要素价值创造互为因果,大模型正在驱动数据要素以“激发通用智能”的新模式创造价值,如何整合大规模高质量数据用于大模型训练,既是推动大模型发展的切入口,也会成为进一步挖掘数据要素价值的胜负手;第二,需要厘清数据要素催化大模型发展的投入优先级,遵循人工智能在过去数十年发展习得的经验,尊重技术和市场规律,使其帮助我们最终筛选出中国发展通用大模型的特色道路。



数据要素成为政、产、学、研共同关心与关注的热门议题。我们认为值得为探讨数据要素议题设置一个前提,那就是系统和科学地理解“数据要素如何创造价值”。所谓“科学理解”既是指要具备兼顾微观具象世界与宏观抽象世界的全面视角,也是指要保持动态思考、吐故纳新的理性姿态。我们不妨从产业实践入手,从过去二十多年产业数字化转型的过程中, 总结数据要素创造价值的具体特点。再展望未来十年, 观察以生成式人工智能(大模型)为代表的技术特征, 推出数据要素创造价值的新模式。

01

数据要素创造价值的三种模式

“实践是检验真理的唯一标准”,据此,中国社科院信息化研究中心主任姜奇平提出,“使用是检验(数据要素)价值的唯一标准”。要理解数据要素价值,最朴素往往也是最为有效的方式是回到数据创造价值的现场去深入观察。

让我们先把目光投向中国快递行业。

2023年,中国快递业务量累计完成1320.7亿件, 占全球快递总量60%以上。而2000年,这一数字才刚刚突破1亿。在包裹绝对数量增长的同时,配送速度也稳步提高,为用户提供更好的消费体验。

以中国快递行业二十多年高质量发展为参照,阿里云智能副总裁安筱鹏博士基于经济学视角,总结出数据要素创造价值的三种模式,得到了一一验证。第一,投入替代。即数据要素可以用更少的物质资源创造更多的物质财富和服务。菜鸟集团于2014年首次推出电子面单,经过研发与推广,逐步成为全行业的数字化基础设施之一。一张小小的热敏纸电子面单取代传统的五联单,不仅从根本上提高了配送准确率,也大幅度减少了资源投入。据统计,仅2021年,因为电子面单的推广而节省的纸张相当于少砍伐10万棵树木。相当于一片90万平方米的森林。第二,价值倍增。即数据要素融入劳动、资本、技术等每一个单一要素,使得单一要素的价值产生倍增效应。手持PDA与配套应用,今天的快递员已经被数字化的软硬件充分“武装”。与二十年前相比, 快递员并没有“跑得更快”,但是数据在为其工作提效, 可以实现“送得更多”。第三,资源优化。即数据要素提高了劳动、资本、技术、土地等传统要素之间的资源配置效率。基于用户消费习惯、道路交通效率等大数据, 优化物流仓库选址和路径规划已经成为全行业主流。科学选址在降低建设与运营成本的同时,实现物流网络整体效能最优化。

在中国快递行业飞速发展的历程中,数据要素所创造的价值是巨大而清晰的。不仅是物流,数据要素正在以投入替代、价值倍增和资源优化三种模式在千行百业创造价值发挥作用,这正是我国过去二十年里走入数字化生活和生产方式的源动力。


02

从人工智能发展历程

看数据要素价值创造

2022年末到2024年初,从ChatGPT惊艳亮相到Sora面世,在短短时间内不断刷新人类对智能的认知边界。在这段时间里,我们见证了数据价值的极度放大:大模型从数据中学习人类的语言习惯、推理逻辑,在诸如文本生成、语言翻译、情感分析、复杂任务分解与完成等多个领域取得革命性的进步,甚至在视频生产中体现了物理运行规律,从而被称为“世界模拟器”。数据不仅是训练这些复杂模型的基石,也是持续推动它们进化的动力。对此,OpenAI的联合创始人伊尔亚·苏茨克维(Ilya Sutskever)曾经在访谈中用一句抽象的话来概括——“The models just want to learn !”这并不是说模型真的有学习意愿,而是解释模型就是如此被设计的,从尽可能多的数据中自动学习隐式的规则与经验,并通过算法和算力的优化不断改进学习的效率和范围。

早在1970年代,美国国防部高级研究计划局(DARPA)赞助的语音识别竞赛中,不同的比赛队伍选择了两种截然不同的设计思路:一种是利用人类已知的知识,依赖于对人类语言的深入理解,使用手工编写的规则来描述语音和语言的结构,例如将音节组合成单词,或根据上下文确定单词的发音。另一种是依赖数据,采用统计从大量语音中抽取特征,尽管人类研究者也不能理解和解读这些特征和规律。在DARPA的竞赛中,基于数据的新方法显示出其优越性,特别是在处理大量、复杂和多变的语音数据时, 新方法能够更好地适应不同的口音、方言和噪声条件。这次竞赛的结果直接导致自然语言处理技术路径发生重大转变,统计学与计算能力逐渐成为该领域的主导。

2004年,DARPA再次发起无人驾驶挑战赛。第1年的比赛如同一系列车祸的现场,被称为“沙漠溃败”。一年半后第二次赛事启动,但这次也有两种技术路线:一种是依赖于人类已有的经验和总结,例如事先探查沙漠路径,给车辆设计突破路途中障碍物的专门程序等;另一种还是依赖数据,以机器学习学习道路特征来进行导航和脱障,同时加强对道路数据的实时采集, 让无人车能够“随机应变”。这一次,又是依赖数据的第2条技术路线获得了胜利,并且奠定了现代自动驾驶的架构基础。

后续的人工智能赛事逐步为全球所熟知,例如,2016年AlphaGo以数百万局人类棋手的对局数据训练,学习了高水平的棋局策略和模式,而第2个版本AlphaGo Zero则完全依赖于自我对弈生成的数据迭代训练,产生了超越人类棋手的知识和经验,达到前所未有的围棋水平。

这每一次不同类型的比赛,算法从统计、机器学习发展到深度学习,算力从单片机发展到GPU,但都是人类经验逐步让渡于海量数据的过程,也是人类带着数据冲击机器智能新上限的经历。


03

AGI的发展遵循扩展定律

AlphaGo展示了深度学习令人惊艳的能力,但是仅限于单一任务围棋对弈。随后,人工智能广泛应用于产业实践,从淘宝的“猜你喜欢”,到城市大脑计算和疏导交通流量,都是一个特定模型解决一个具体问题。这种“一事一模”的方式,使得人工智能科学家和工程师局限于碎片化的场景,更延缓着产业数字化的进程,限制着数据继续发挥价值的效率。

为何不能用一个模型解决所有问题?扩展定律(Scaling Law)是人工智能产业内环的破局共识:用更大的模型,更多的算力,从更多的数据中学到更多的隐式知识和通用能力。从GPT 1到GPT 3不断尝试,在将参数规模提升100倍,训练数据量提升50倍, GPT 3.5(chatGPT)出现了能力“涌现”:全球1亿多用户涌入验证了模型可以像人类一样的理解上下文和对话,而模型还具备更深层的泛化(generalization) 和思维链(CoT,chain of thought)能力,可以对未知情况做出合理推断,把复杂问题拆解成简单任务分步解决。这正是人类期待的AGI雏形:一个基础通用的大模型可以写诗作画,可以改造程序编码、文档编辑等各种工具软件,可以“附身于”机器人,以具身智能加快机器人研发进程,并且改变了科研范式,使得生物医学、材料科学、工业仿真等领域都带来了新的突破。OpenAI团队对此总结并发表了著名论文《自然语言模型的扩展定律》(Scaling Laws for Neural Language Models)。

中国的大模型发展道路也在验证这一点。以阿里巴巴通义千问为例,2023年8月以来,连续发布7B、14B、72B和200B参数版本。伴随着参数规模的扩大, 模型能力显著增强。而另一家大模型独角兽企业月之暗面的创始人杨植麟给出更为直接的判断:“AI研究了七八十年,唯一有效的东西其实是scaling law,就是不断放大数据、算力和算法这几样生产要素。”

04

新模式:从解决单一问题到

激发通用“智能”

前文所述的数据要素创造价值的三种模式,即投入替代、价值倍增、资源优化,在当下和未来相当长的时间里都持续有效。但本文试图去描述,是遵循scaling law,从人类既定经验为主到从数据中学习规律为主,从解决单一问题转为激发通用“智能”的新模式。

在大模型技术出现之前,针对某一特定场景,需要特定的数据要素与特定其他要素融合,从而解决单个问题实现单一价值。而今天,数据要素的价值不再以特定场景为起始锚点,而是展现出了“全能选手”的实力与潜力。我们以一家AI独角兽Jasper AI为观察样本,这家辅助生成广告文案的优秀应用,在2022年公司营收7500万美元,估值更是达到15亿美元。但在ChatGPT发布后,生成性能远超Jasper AI,随即Jasper AI网站的访问流量下降了近40%,7个月后, 它开始发布裁员通告。在大模型发展的道路上,每一次通用大模型能力的跃迁,都会形成对散点应用和解决的碾压。但换个视角,大模型通用智能带来的价值成效,将超过若干个碎片化场景应用的总和。

基于上述的发现与认识,再来重新审视数据要素议题的前提,即“数据要素如何创造价值”这一问题时, 我们形成了两点面向未来的思考:


第一,大模型发展与数据要素价值创造互为因果。2007年,图灵奖获得者吉姆·格雷(Jim Gray)在生前最后一次演讲中就提出了著名的“第四范式” 。他认为人类开展科学研究的范式,经历了实验观察、理论推理、计算机模拟等三个阶段后,因为新型信息技术的进步,催生出全新范式“数据密集型科学发现” (data-intensive scientific discovery)。大模型的出现本身证明了“第四范式”这一论断的正确性,同时大模型的发展与应用也是“第四范式”付诸于实践的有效载体。大模型的发展以数据要素投入为前提。数据不仅是人工智能模型的输入原料,同时也为模型的持续创新提供推动力,发挥着创新要素的作用。而大模型正在驱动数据要素以“激发通用智能”的新模式创造价值。因此,如何整合大规模高质量数据用于大模型训练,既是推动大模型发展的切入口,也会成为进一步挖掘数据要素价值的胜负手。

第二,厘清数据要素催化大模型发展的投入优先级。当前,大模型已经成为中美竞争的焦点之一。通用大模型的研发与场景应用从来就不是选择题,我们既需要大模型“作诗”,也需要“做事”,即加快大模型与实体经济深度融合,助力实现高质量发展。事实上, 大模型既能“作诗”又能“做事”,是克服了上一代人工智能“一事一模”的发展缺陷,是聚合碎片化场景、加速数据服务千行百业的关键。如果把训练大模型比如为培养孩子的过程,那么优先级不在于培养其背唐诗或者弹钢琴等特定技能,而在于通过数据与算力的投入,直接提高孩子的“智商”(通用能力)。因为“智商” (通用能力)提高了,各类技能(场景应用)将快速掌握。我们需要遵循人工智能在过去数十年发展习得的经验, 需要警醒,不要割裂甚至对立“作诗”与“做事”,技术和市场规律会帮助我们最终筛选出中国发展AGI的特色道路。

数据要素的价值已经被足够重视和期待,但数据要素价值的新模式还没有被充分认知和接受。如同人类当年矢志不渝地向月球迈进,今天我们同样怀揣着对通用人工智能(AGI)技术研发、对“数据二十条” 与产业的碰撞结合的坚定信念, 即数据要素将如同推动登月计划的燃料,推动人类既有智慧和全新科技力量交融共生。MI·专题

作者

袁媛 阿里研究院执行院长

徐琪方 阿里研究院高级专家

原文刊载于《管理视野》杂志第36期,标题有修改。

版块介绍 — 产业之声

紧跟产业发展脉搏,我们汇集行业领袖与企业的真实声音,在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面,剖析成功案例背后的逻辑与挑战,并提供基于产业深度洞察的策略建议。同时,我们依托于阿里巴巴集团在人工智能领域的全面布局,分享阿里的AI产业生态和应用的实践落地,探讨技术如何重塑产业格局并推动社会经济的转型升级。

Reading

1、

2、

3、

4、

5、

6、

7、

8、

9、

10、

11、

12、

13、

14、

15、

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
疑似万茜老公出轨时间线曝光,已有其他女演员被波及

疑似万茜老公出轨时间线曝光,已有其他女演员被波及

木木夕木可
2024-06-28 13:38:23
尘埃落定,中国奥委会正式确认国乒巴黎奥运会单打参赛名单

尘埃落定,中国奥委会正式确认国乒巴黎奥运会单打参赛名单

尘语者
2024-06-29 18:52:14
郭正亮谈到:普京访华时,可能已把俄乌战场绝密数据,拷给了北京

郭正亮谈到:普京访华时,可能已把俄乌战场绝密数据,拷给了北京

西斋青简
2024-06-29 13:42:12
劳塔罗下半时开始74秒破门,创造自91年以来阿根廷美洲杯纪录

劳塔罗下半时开始74秒破门,创造自91年以来阿根廷美洲杯纪录

懂球帝
2024-06-30 09:48:07
潜伏在我国军政高层的5个间谍,个个曾都是大人物,他们都是谁?

潜伏在我国军政高层的5个间谍,个个曾都是大人物,他们都是谁?

星辰故事屋
2024-05-02 17:48:11
5亿借款难倒广州老牌房企,深圳项目被仲裁抵债

5亿借款难倒广州老牌房企,深圳项目被仲裁抵债

南方都市报
2024-06-30 07:10:10
终于明白为什么买车不要发朋友圈了!网友真实分享,果然人心难测

终于明白为什么买车不要发朋友圈了!网友真实分享,果然人心难测

热闹的河马
2024-06-29 16:53:24
求求你们别用健身房的吹风机“吹鸟”了!

求求你们别用健身房的吹风机“吹鸟”了!

世界脊柱健康联盟
2024-06-28 13:24:39
沉默两天后,大陆终于行动了,惩戒开始,一夜间台岛内外形势大变

沉默两天后,大陆终于行动了,惩戒开始,一夜间台岛内外形势大变

小lu侃侃而谈
2024-06-27 20:51:13
军中巨虎畏罪自杀,刘源将军:比徐和郭问题严重!

军中巨虎畏罪自杀,刘源将军:比徐和郭问题严重!

我是娱有理
2024-04-16 07:18:56
大反转?无需亲子鉴定,王思聪承认女儿存在,闪闪可享千亿继承权

大反转?无需亲子鉴定,王思聪承认女儿存在,闪闪可享千亿继承权

鑫鑫说说
2024-06-29 10:59:03
仅仅2场比赛!由于此人太能“装”,郭士强忍无可忍将他开除

仅仅2场比赛!由于此人太能“装”,郭士强忍无可忍将他开除

体坛狗哥
2024-06-29 21:16:27
头条欧洲杯|意大利很弱,现在不是幻觉了

头条欧洲杯|意大利很弱,现在不是幻觉了

澎湃新闻
2024-06-30 09:26:31
意大利队后悔吗?弃用他成最差选择:9冠王名帅,比斯帕莱蒂靠谱

意大利队后悔吗?弃用他成最差选择:9冠王名帅,比斯帕莱蒂靠谱

球场没跑道
2024-06-30 08:15:12
放暑假了!韦神回山东老家,面带微笑,“手中少了馒头和矿泉水”

放暑假了!韦神回山东老家,面带微笑,“手中少了馒头和矿泉水”

解说阿洎
2024-06-29 22:28:50
好不容易晋升为上将,怎料被儿子“拖下水”,涉案金额竟高达百亿

好不容易晋升为上将,怎料被儿子“拖下水”,涉案金额竟高达百亿

小lu侃侃而谈
2024-05-23 21:23:30
普京兴奋,泽连斯基绝望,美国总统的一场辩论,奠定俄乌结局?

普京兴奋,泽连斯基绝望,美国总统的一场辩论,奠定俄乌结局?

王子看台海
2024-06-29 09:13:23
终于决定离开了!国际空间站马上油尽灯枯,美国已经准备“后事”

终于决定离开了!国际空间站马上油尽灯枯,美国已经准备“后事”

嘿哥哥科技
2024-06-30 03:03:36
继续暴跌!日元跌破161关口后,日媒:日本或撤换最高外汇官员!

继续暴跌!日元跌破161关口后,日媒:日本或撤换最高外汇官员!

王爷说图表
2024-06-29 17:04:05
汪小菲带娃游湖,一家四口划船玩耍,玥儿个头长高,体态比以前好

汪小菲带娃游湖,一家四口划船玩耍,玥儿个头长高,体态比以前好

娱乐书坊
2024-06-29 16:55:55
2024-06-30 10:10:44
阿里研究院
阿里研究院
推动商业互联网化
1797文章数 1908关注度
往期回顾 全部

科技要闻

Meta低头,库克认错,XR设备还不相信高端

头条要闻

三国领导人密集访华 越南总理表态支持中国加入CPTPP

头条要闻

三国领导人密集访华 越南总理表态支持中国加入CPTPP

体育要闻

“意大利很弱”,不再是错觉了

娱乐要闻

白玉兰明星反应精彩 胡歌获奖唐嫣激动

财经要闻

A股上半年人均亏损1.2万 你亏了多少?

汽车要闻

小鹏MONA M03 7月3日首发 15万紧凑级

态度原创

时尚
家居
房产
公开课
军事航空

夏日牛仔裤的时尚魔法:简约不简单

家居要闻

美式风格 呈现田园风格

房产要闻

20亿!又有国企要卖海南资产!

公开课

连中三元是哪三元?

军事要闻

白乌边境局势紧张 白俄官员称已准备好应对任何挑衅

无障碍浏览 进入关怀版