网易首页 > 网易号 > 正文 申请入驻

InfoQ 2022 年趋势报告:人工智能、机器学习和数据工程篇

0
分享至

作者 : Srini Penchikala, Dr Einat Orr, Rags Srinivas 等

译者 :明知山

策划 :丁晓昀

本文是对 2022 年 AI、ML 和数据工程 InfoQ 趋势报告播客的总结,涉及 AI、ML 和数据工程领域的关键趋势和技术。

在这份年度报告中,InfoQ 的编辑们讨论了 AI、ML 和数据工程的现状,以及软件工程师、架构师或数据科学家应该关注的新趋势。我们将讨论整理成技术采用曲线,并附带了评论,帮助读者了解这些领域技术的发展状况。

在今年的播客中,InfoQ 的编辑团队加入了一位外部小组成员 Einat Orr 博士,他是开源项目 LakeFS 的联合创始人,也是 Treeverse 的联合创始人兼 CEO,他在最近举行的伦敦 QCon 大会上发表了演讲。

下面的内容总结了其中的一些趋势,以及不同的技术在技术采用曲线中的位置。

自然语言理解和自然语言生成的崛起

我们认为自然语言理解(NLU)和自然语言生成(NLG)技术应该处于早期采用者阶段。InfoQ 团队已经报道了该领域的最新进展,包括百度基于信息实体的增强语言表示(ERNIE)、Meta AI 的 SIDE,以及特拉维夫大学的长语言序列标准化比较(SCROLLS)。

我们还报道了几个与 NLP 相关的开发成果,如谷歌研究团队的 Pathways Language Model(PaLM)、EleutherAI 的 GPT-NeoX-20B、Meta 的 Anticipative Video Transformer(AVT),以及 BigScience Research Workshop 的 T0 系列 NLP 模型。

深度学习进入早期大众阶段

去年,随着越来越多的公司使用深度学习算法,我们将深度学习从创新者阶段移到了早期采用者阶段。自去年以来,深度学习解决方案和技术已经被广泛应用在企业中,因此我们正在将其从早期采用者阶段移到早期大众阶段。

已经有一些关于这个主题的播客(无代码深度学习和可视化编程)、文章(基于机构增量学习的深度学习系统、松散耦合的深度学习服务、使用 Apache Spark 和 NVIDIA GPU 加速深度学习)和新闻(BigScience 的大型开放科学开放访问多语言模型、谷歌 AI 的深度学习语言模型 Minerva、OpenAI 的开源框架 Video PreTraining)。

视觉语言模型

与图像处理相关的 AI 模型发展还包括 DeepMind 的 Flamingo,这是一种 80B 参数的视觉语言模型(VLM),结合了单独预训练的视觉和语言模型,可以回答用户用通过图像和视频提出的问题。

谷歌的 Brain 团队发布了 Imagen,一个文本到图像的 AI 模型,可以根据文本描述生成逼真的场景图像。

另一个有趣的技术,数字助理,现在也进入到早期大众阶段。

流式数据分析:

物联网和实时数据摄取

流式架构和流式数据分析已经被越来越多的公司采用,特别是在物联网和其他的实时数据摄取和处理场景中。

Sid Anand 关于构建高保真数据流的演讲和 Ricardo Ferreira 关于通过从批处理过渡到流式处理从动态数据中获取价值的演讲都是流式处理已成为战略数据架构必备要素的绝佳例子。此外,Chris Riccomini 在他的文章“数据工程的未来”中讨论了流式处理在整个数据工程中所扮演的重要角色。

Chip Huyen 在去年的 QCon Plus 在线大会上发表了关于实时机器学习流式基础设施的演讲,强调了实时机器学习流式基础设施的优势、实时机器学习的好处以及实现实时机器学习所面临的挑战。

作为对这一趋势的反映,流式数据分析和技术,如 Spark Streaming 已经进入了晚期大众阶段。数据湖即服务(Data Lake as a Service)也是如此,在去年获得了进一步的采用(如 Snowflake)。

AI/ML 基础设施:规模化构建

高度可伸缩、弹性、分布式、安全、高性能的基础设施可以成就或破坏企业的 AI/ML 战略。没有良好的基础设施作为基础,任何 AI/ML 计划都不可能长期取得成功。

在今年的 GTC 大会上,NVIDIA 发布了用于 AI 计算的下一代处理器 H100 GPU 和 Grace CPU Superchip。

资源协调器(如 YARN)和容器编排技术(如 Kubernetes)现在都处于晚期大众阶段。Kubernetes 已经成为云平台事实上的标准,在将应用程序部署到云端方面,多云计算受到了越来越多的关注。Kubernetes 等技术可以实现 AI/ML 数据管道整个生命周期的自动化,包括模型的生产部署和后期支持。

在创新者阶段也有一些新进入者,包括云不可知 AI 计算、知识图、AI 结对编程(如 Github Copilot)和合成数据生成。

知识图继续在企业数据管理领域占有一席之地,它为不同的场景(包括数据治理)提供了实际的应用。

基于 ML 的编码助手

GitHub Copilot

去年发布的 GitHub Copilot 现在已经准备就绪。Copilot 是一个基于 AI 的服务,通过分析现有代码和注释帮助开发人员编写新代码。它会为开发人员生成基本函数,开发人员不需要从头编写这些函数,从而提升了开发人员的工作效率。除了 Copilot,未来也会出现更多的解决方案,它们提供了基于 AI 的结对编程,并自动化软件开发生命周期中的大部分步骤。

Nikita Povarov 在“面向开发者的 AI:是未来还是现实”一文中谈到了 AI 开发工具的作用。AI 开发者试图使用算法来增强程序员的工作,让他们变得更有效率。在软件开发当中,我们可以清楚地看到 AI 既执行人工任务,又提升了程序员的工作效率。

合成数据生成:保护用户隐私

在数据工程方面,自去年以来,合成数据生成是另一个获得大量关注和兴趣的领域。合成数据生成工具可用于生成安全的合成业务数据,有助于保护用户隐私。

亚马逊云科技推出了 SageMaker Ground Truth 等技术,用户现在可以使用这些技术创建有标签的合成数据。Ground Truth 是一种数据标记服务,可以生成数百万张自动标记的合成图像。

在 AI/ML 应用的整个生命周期中,数据质量至关重要。Einat Orr 博士在伦敦 QCon 大会上发表了关于大规模数据版本控制的演讲,并讨论了数据质量和大型数据集版本控制的重要性。数据的版本控制有助于重现一个流程或模型的输入和输出数据集之间的沿袭,并为审计提供相关信息。

在这次大会上,Ismaël Mejía 讨论了如何在最新的数据管理方法(包括操作、共享和有助于我们创建和维护具有弹性和可靠性的数据架构的数据产品)中应用开源 API 和开放标准。

在另一篇文章“为现代数据系统构建端到端字段级沿袭”中,作者将数据沿袭作为数据管道根源和影响分析工作流的关键组件进行了讨论。为了更好地理解数据仓库源对象和目标对象之间的关系,数据团队可以使用字段级沿袭。对沿袭创建进行自动化,并将元数据抽象到字段级别可以减少进行根源分析所需的时间和资源。

新进入早期采用者阶段的包括与机器人和虚拟现实相关的技术(VR/AR/MR/XR)以及 MLOps。

MLOps:ML 和

DevOps 实践的结合体

MLOps 已经得到了很多公司的关注,因为它将 DevOps 的原则和最佳实践引入到了软件开发领域。

Francesca Lazzeri 在 QCon Plus 大会上提到,MLOps 是企业 AI 应用最重要的一个组成部分。她讨论了 MLOps 如何帮助数据科学家和应用程序开发人员将机器学习模型应用到生产环境中。MLOps 可以帮助我们跟踪、版本化、审计、认证、重用机器学习生命周期中的每一项资产,并提供编排服务以简化机器学习生命周期的管理。

MLOps 通过将人、流程和平台聚集在一起对融入了机器学习的软件交付进行自动化,为我们的用户提供持续的价值。

她还讨论了在生产环境中部署 ML 应用程序之前应该了解哪些东西,关键要点包括使用开源技术进行模型训练和部署,并通过机器学习管道自动化端到端 ML 生命周期。

Monte Zweben 谈到了将功能商店和模型部署等核心组件聚集在一起的 Unified MLOps。

在播客中讨论的其他主要趋势如下。

  • 在 AI/ML 应用中,转换器仍然是首选的架构。

  • ML 模型继续发展壮大,可以支持数十亿个参数(GPT-3、EleutherAI 的 GPT-J 和 GPT-Neo、Meta 的 OPT 模型)。

  • 用于机器学习训练的开源图像到文本数据集,如 CLIP 或 DALL-E,促进了数据民主化,人们都可以利用这些模型和数据集。

  • 机器人和虚拟现实的未来将主要出现在元宇宙中。

  • AI/ML 计算任务将受益于基础设施和云计算创新,如多云和云不可知计算。

要了解更多信息,请参考 2022 年 AI、ML 和数据工程播客录音和文本,以及 InfoQ 的 AI、ML 和数据工程专题内容。

https://www.infoq.com/articles/ai-ml-data-engineering-trends-2022/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
福州市委决定,黄建新履新(附简历)

福州市委决定,黄建新履新(附简历)

鲁中晨报
2024-11-24 09:48:06
杨坤发飙,和网友对骂,脏话连篇,粗俗不堪,真惊了

杨坤发飙,和网友对骂,脏话连篇,粗俗不堪,真惊了

娱乐的小灶
2024-11-24 09:45:03
东海舰队首次对外公开:只要太原舰所有武器通电,一炮就可打穿

东海舰队首次对外公开:只要太原舰所有武器通电,一炮就可打穿

寒士之言本尊
2024-11-22 21:29:36
四川巴中女干部在培训期间出轨,网友:女的也好那些东西

四川巴中女干部在培训期间出轨,网友:女的也好那些东西

说真话的小陈
2024-11-22 16:25:10
穿最丑的衣服,长最深的法令纹,她才是最天真性感的“疯批美人”

穿最丑的衣服,长最深的法令纹,她才是最天真性感的“疯批美人”

洲洲影视娱评
2024-11-22 16:21:43
条纹哥被保安轰走,场馆外被打出鼻血,便宜了蹭他流量的张芮尔们

条纹哥被保安轰走,场馆外被打出鼻血,便宜了蹭他流量的张芮尔们

观察鉴娱
2024-11-22 14:58:05
兔子警官李语蔚升职了,爆火后没有辞职当网红,如今离转正不远了

兔子警官李语蔚升职了,爆火后没有辞职当网红,如今离转正不远了

星光历史
2024-11-23 09:27:28
北韩士兵轮奸俄罗斯女老师,FSB正发起调查

北韩士兵轮奸俄罗斯女老师,FSB正发起调查

魔幻故事
2024-11-20 09:33:00
以前烂一地没人捡,如今价格猛涨,目前已突破600元/公斤,很多农民抢着摘

以前烂一地没人捡,如今价格猛涨,目前已突破600元/公斤,很多农民抢着摘

禾木报告
2024-11-23 17:24:32
曾经是明星,如今成了摆摊小贩,这5位落魄明星,一个比一个卑微

曾经是明星,如今成了摆摊小贩,这5位落魄明星,一个比一个卑微

探寻者
2024-11-22 17:30:00
冲上热搜!胖东来拒售农夫山泉绿瓶水,背后原因大揭秘!

冲上热搜!胖东来拒售农夫山泉绿瓶水,背后原因大揭秘!

小毅说事
2024-11-23 10:52:10
上海一父亲送女儿18岁成年礼,母亲下班回家后,瞬间难受到恶心

上海一父亲送女儿18岁成年礼,母亲下班回家后,瞬间难受到恶心

呆呆文化
2024-10-25 00:10:02
西兰花千万别用清水洗,等于吃虫卵,教你清洗窍门,脏东西全跑光

西兰花千万别用清水洗,等于吃虫卵,教你清洗窍门,脏东西全跑光

素食
2024-11-21 21:12:16
3比0横扫强势夺冠!19岁天才少年拿下男单冠军,未来一哥崛起了

3比0横扫强势夺冠!19岁天才少年拿下男单冠军,未来一哥崛起了

体坛知道分子
2024-11-24 06:10:02
致1人死亡!山东一小区突发烟花爆炸,多户玻璃被震碎……

致1人死亡!山东一小区突发烟花爆炸,多户玻璃被震碎……

开屏新闻客户端
2024-11-23 16:12:15
唐尚珺校运会1500米完赛,自称排名第11位,名次表曝光:倒数第五

唐尚珺校运会1500米完赛,自称排名第11位,名次表曝光:倒数第五

育学笔谈
2024-11-23 20:43:46
已打了900多天,各国终于觉察到不对:中国的选择没错

已打了900多天,各国终于觉察到不对:中国的选择没错

智凌纵横
2024-11-11 22:30:03
私人影院成“重灾区”,一小时500元过程明码标价,店家:不怕查

私人影院成“重灾区”,一小时500元过程明码标价,店家:不怕查

阿纂看事
2024-11-04 16:49:58
恩比德:会议上迟到只讨论了30秒 我只迟到过1-2次且都是不上场时

恩比德:会议上迟到只讨论了30秒 我只迟到过1-2次且都是不上场时

直播吧
2024-11-23 09:49:15
开年大戏!超级杯对阵:海港vs申花,比赛将在昆山奥体中心进行

开年大戏!超级杯对阵:海港vs申花,比赛将在昆山奥体中心进行

直播吧
2024-11-23 20:36:43
2024-11-24 11:56:49
人工智能学家
人工智能学家
人工智能领域权威媒体
3316文章数 37015关注度
往期回顾 全部

科技要闻

“这是中国的非凡机遇,德日远远落后了”

头条要闻

广东知名健身机构关门倒闭 有人剩近10万元未消费

头条要闻

广东知名健身机构关门倒闭 有人剩近10万元未消费

体育要闻

德约科维奇携手穆雷 征战新赛季

娱乐要闻

一个月被爆两次,王宝强得罪谁了?

财经要闻

2025年全球股、债、商、汇怎么走?

汽车要闻

尊界S800首张官图发布 双色车身"尊的"很亮

态度原创

本地
亲子
艺术
数码
公开课

本地新闻

云游中国 | 拒绝特种兵!北方也有“真江南”

亲子要闻

路上遇见的拍视频小朋友,看样子是有专门训练的呀

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

数码要闻

荣耀耳夹式耳机官网开启预约:C 形桥设计、纯黑配色

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版