网易首页 > 网易号 > 正文 申请入驻

Scale AI:从数据标注,到AI应用落地

0
分享至

文|许英博 陈俊云 刘锐 杨泽原 中信证券研究

Scale AI是美国人工智能数据标注领域的独角兽。公司成立于2016年,最初业务为AI数据标注外包,逐渐拓展为企业级数据集成商,协助客户进行AI开发和部署。公司客户亦由B端企业逐渐扩展至G端。2021年以来,公司估值从73亿美元,显著提升至138亿美元,增幅近90%。2024年,公司年化收入(ARR)已超10亿美元,而2018年仅为1700万美元,2018-2024年CAGR超100%。我们认为,公司的商业模式转变,以及快速增长的营收和估值表明,生成式人工智能浪潮正在重构企业的数据需求和软件应用形态。高质量数据对AI应用效果至关重要,尤其在自动驾驶、金融、医疗等专业性较高的垂直领域。此外,AI亦给北美原有高度专业化细分的数据服务产业链带来变化,甚至最终彻底重构软件和数据服务产业链。这一变化,将给软件和数据产业链带来中长期的新的投资机遇,相关机遇亦值得中国软件行业借鉴。

▍报告缘起:为什么我们认为Scale AI值得重视?

1)Scale AI早期主要业务系为自动驾驶公司提供数据标注外包服务,在2022年后与OpenAI等合作,逐步转型为以数据标注和治理为核心的AI基础设施公司,从数据标注逐步拓展至以其企业级数据平台为基础为政企客户提供从AI数据治理到生成式AI应用的落地部署和商业闭环的全流程服务,这一商业模式帮助客户解决了在垂类细分场景下数据质量差、AI应用难以落地的问题,整体提升了下游AI应用的落地速度和迭代节奏。

2)根据The information报道, Scale AI的年化收入从2018年的1700万美元快速上升至2023年的约7.6亿美元,5年CAGR达到113%。至2024年5月,公司的ARR(年化收入)已经突破10亿美元,且几乎完全来源于AI相关的数据业务。公司估值同样快速上升,由2021年的73亿美元上升至2024年5月F轮融资时的138亿美元,增长超过89%。在全球AI相关公司中,除算力产业链以及基座模型相关公司(如Open AI、Anthropic等),Scale AI的营收和市值规模首屈一指。

3)我们认为,公司营收和市值规模在过去三年内快速增长,体现出在AI产业链环节中,数据产业对于AI应用大规模落地的重要性正逐步被行业和市场所认知。

公司商业模式解析:从数据标注外包商向数据集成商转变。公司以高质量数据标注为核心,并以此为基础为B端和G端客户提供一站式的AI应用落地部署服务。

1)公司早期业务系为自动驾驶企业提供数据标注外包服务,从2020年起,随着Scaling Law下大模型参数规模的快速膨胀及所需训练数据量的上升,Scale开始与OpenAI进行合作,为其提供大规模数据标注服务。在该过程中,公司将自己在数据标注业务中的know-how沉淀于其数据引擎平台上,结合AI标注能力,更高效地为客户完成其业务数据的分类、标注和标准化治理。

2)公司从数据标注外包服务商拓展为企业级数据集成商,通过企业级AI数据平台为客户打通AI数据全链路服务,加速客户AI应用开发和部署节奏。Scale并不提供大模型产品,但在标注处理完客户的私有数据后,Scale AI可以为客户比较和测试第三方公司提供的主流大模型(如Google、Anthropic、OpenAI),并通过客户数据对大模型进行微调,最终结合客户的具体使用场景将大模型进行落地部署。公司的AI平台可以帮助没有能力选择相关技术供应商的客户完成AI应用落地所需的技术工作及相关供应商的选择。

3)数据质量对AI在垂类场景落地重要度提升,绑定核心标注人员构筑公司竞争壁垒。对于专业场景而言,通过RAG方法对模型进行微调需要高质量垂类数据,而垂类数据的标注对于精准度和专业性有一定要求。Scale雇佣了数十名相关领域的博士进行数据标注,并借此机会与拥有专业数据标注能力的相关人员进行了绑定,通过和重要行业客户的合作完成了行业知识的积累。

4)公司业务由B端向G端衍生,G端落地速度快。公司积极与美国多个政府部门进行合作,2022年,公司与美国国防部签订订单,单笔金额达到2.5亿美元,公司为美国政府与军方提供了大模型测试与评估、多诺万AI平台、开源数据集评估等多项服务。公司的多诺万AI平台接入了美国军方的数据源,并通过该平台对军方收集的战场图像进行标注。在获取数据后,公司在该平台上通过调用并微调第三方模型完成私有数据集上的大模型训练,进而通过微调模型对军方实时提供的战场图片进行判读、毁伤评估和态势感知,大幅提高了军方对战场情报的分析效率和反应速度。

公司当前情况:经历7轮融资,头部大厂进行背书。

1)公司目前经过7轮融资,历史总融资额超16亿美元。公司E轮及之前融资主要以Y Combinator为代表的财务投资者为主。公司最近一轮融资为2024年5月份的F轮融资,包括Meta、英伟达在内的头部科技公司共计为Scale AI注资达10亿美元。

2)除融资外,公司同样在业务上与头部大厂达成了深度合作关系。Scale AI自2019年开始与Open AI进行合作,并深度参与了GPT-2及以后GPT模型的数据标注工作。Open AI同时将Scale视为优先合作伙伴,优先推荐企业客户使用Scale提供的微调服务。我们认为,头部科技公司主导的产业资本对Scale AI的投资与Scale AI估值水平的快速上升或反映出AI数据基础设施产业或成为AI行业下一阶段的重要发展方向。

Scale AI的经验与借鉴:数据标注业务产业链价值提升,北美数据产业融合发展趋势明显。

1)在Scaling Law的行业趋势下,大模型迭代所需的算力以及对应用于训练的数据均呈现指数级增长。以Open AI为例,从GPT1-GPT3,其模型参数规模在2018-2020年由1.17亿个增长至1750亿个,训练数据集由4.5GB指数级增长至570GB,GPT4约为1PB。根据Epoch AI的预计,全球的公开高质量文本数据将在2027年耗尽。特定企业内部则拥有庞大的私有数据集,以金融业为例,根据SaaStr网站主持人Harry Stebbings对Scale AI创始人 Alex Wang的访谈,摩根大通内部拥有约150PB的专有数据集,但数据因未经清洗和加工,较难为大模型使用。同时,在特定任务领域,例如医疗、金融风控等场景,经过专业人员逻辑性标注的专业数据可降低模型出现幻觉的概率和提高模型准确度。在该种趋势下,我们看到用于AI训练和推理的垂类数据标注的难度和产业价值均在提升。

2)从数据产业链的角度来看,北美数据产业链正从高度分工的业态趋于融合发展。数据软件本身的功能边界趋于模糊,同时各赛道龙头公司通过内生发展或并购方式向产业链各环节进行衍生,以Palantir为代表的数据集成商公司成长显著。我们认为这一产业趋势的背后是B端客户对于以AI为核心的数智化转型存在明确诉求,而该种转型需要企业完成自己内部的数据治理、数据分析平台、数据湖仓等环节的构建,但单一企业很难拥有该种技术能力。因此,从数据本身的数量、质量和管理等方面考量,专注于帮助企业完成AI从数据到应用落地的数据产业集成商的出现是中短期内的产业发展趋势。

投资策略:

参考美国产业发展经验,我们认为率先沉淀出平台能力的数据公司有望把握先发优势,构建长期壁垒,建议关注国内相关映射概念标的。国内当前以AI为对象的数据产业发展尚在早期。对于国内数据产业而言,我们认为相关公司将逐步从集成制、项目制的公司向垂类领域进发,率先锁定垂类领域的相关专家、客户,并能够通过垂类项目经验沉淀出平台能力的公司将持续受益。建议关注国产数据治理概念及数据平台型公司。

风险因素:

全球地缘政治冲突的风险;细分市场需求走弱的风险;数据平台开发进度不达预期的风险;行业竞争加剧的风险;AI下游发展不及预期的风险;云厂商Capex投入不及预期风险;核心客户流失风险;核心管理人员流失风险;推荐公司业绩不达预期的风险;推荐公司产品研发进度不及预期的风险;推荐公司的客户AI相关IT开支意愿波动的风险。

本文源自:券商研报精选

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
集体跳水!超16万人爆仓!

集体跳水!超16万人爆仓!

新财富杂志
2026-05-28 18:01:24
属牛的留意:5月29日后,你可能要大哭一场,这是老天爷的安排

属牛的留意:5月29日后,你可能要大哭一场,这是老天爷的安排

糖逗在娱乐
2026-05-28 12:35:02
“订单已排到2027年下半年”!又一行业,爆单了

“订单已排到2027年下半年”!又一行业,爆单了

环球网资讯
2026-05-28 07:22:17
郑钦文一轮游仅2天,难堪一幕发生,远比输球更可怕,李娜没说错

郑钦文一轮游仅2天,难堪一幕发生,远比输球更可怕,李娜没说错

舍长阿爷谈事
2026-05-28 05:41:22
《主角》收官:忆秦娥自首,胡三元才懂刘红兵非死不可

《主角》收官:忆秦娥自首,胡三元才懂刘红兵非死不可

东方不败然多多
2026-05-27 12:26:17
丈夫两年打赏女主播超1700万 妻子起诉后钱能追回吗?

丈夫两年打赏女主播超1700万 妻子起诉后钱能追回吗?

环球网资讯
2026-05-27 16:48:19
任何一只大涨的股票,基本上都逃不过这四条铁律

任何一只大涨的股票,基本上都逃不过这四条铁律

风风顺
2026-05-28 02:45:03
重披女排球衣,张常宁驰援女排?尘埃落定,真实原因曝光,吴梦洁将手术

重披女排球衣,张常宁驰援女排?尘埃落定,真实原因曝光,吴梦洁将手术

科学发掘
2026-05-28 11:49:00
赖清德称台湾是“国家”,蒋万安:我是台湾人,严厉谴责大陆军演

赖清德称台湾是“国家”,蒋万安:我是台湾人,严厉谴责大陆军演

锅锅爱历史
2026-05-23 15:45:36
马科斯48小时内连环出招:老杜核心盟友被解除武装,弹劾案前哨战打响

马科斯48小时内连环出招:老杜核心盟友被解除武装,弹劾案前哨战打响

生活魔术专家
2026-05-28 17:05:49
中国被曝限制AI人才出境,阿里DeepSeek核心人员出国要先获批

中国被曝限制AI人才出境,阿里DeepSeek核心人员出国要先获批

桂系007
2026-05-26 23:43:08
王晶没说谎,58岁久居“日本农村”的郑伊健,现状印证了他的评价

王晶没说谎,58岁久居“日本农村”的郑伊健,现状印证了他的评价

小兰聊历史
2026-05-25 07:41:20
外界热议华为“韬定律”:美国要更担忧了

外界热议华为“韬定律”:美国要更担忧了

观察者网
2026-05-26 17:10:44
拼多多一季度营收1062亿元,同比增长11%;阿里员工十三薪并入年终奖|未来商业早参

拼多多一季度营收1062亿元,同比增长11%;阿里员工十三薪并入年终奖|未来商业早参

每日经济新闻
2026-05-28 07:10:05
官方回应稻城亚丁景区截断省道收费争议:将尽快向公众答复

官方回应稻城亚丁景区截断省道收费争议:将尽快向公众答复

南方都市报
2026-05-27 12:34:06
第二个伊朗?土耳其政坛生死对决!警察攻楼、法院罢免、街头对抗

第二个伊朗?土耳其政坛生死对决!警察攻楼、法院罢免、街头对抗

无情有思可
2026-05-27 12:58:50
毛主席问谁打美军打得好,彭德怀说42军,毛主席说马上调回来

毛主席问谁打美军打得好,彭德怀说42军,毛主席说马上调回来

东哥讲历史1
2025-08-17 20:50:55
NBA出手了!警告文班亚马!追加马刺恶意犯规

NBA出手了!警告文班亚马!追加马刺恶意犯规

篮球教学论坛
2026-05-28 07:58:08
郑钦文输球仅1天,让人愤怒的一幕出现,现在的她印证了李娜的话

郑钦文输球仅1天,让人愤怒的一幕出现,现在的她印证了李娜的话

青橘罐头
2026-05-28 09:51:56
认识 3 个算你厉害!第一个很多人都叫不出,最后一件更是没人认得

认识 3 个算你厉害!第一个很多人都叫不出,最后一件更是没人认得

匹夫来搞笑
2026-05-26 09:38:46
2026-05-28 19:04:49
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 546420关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

黑车高速追尾半挂车致13死 河南车主在湖北上的牌照

头条要闻

黑车高速追尾半挂车致13死 河南车主在湖北上的牌照

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

新款吉利星愿6.18万起售 一镜到底寻找爆款密码

态度原创

教育
游戏
艺术
公开课
军事航空

教育要闻

黄冈市小升初压轴题,全班几乎全军覆没

爆料称V社新主机原始定价比涨价后的Steam Deck还高

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美锁定伊朗打击新目标 考虑重启军事行动

无障碍浏览 进入关怀版