网易首页 > 网易号 > 正文 申请入驻

无需更改代码,RAPIDS cuDF 将 pandas 提速近 150 倍

0
分享至

在 NVIDIA GTC 2024 上,NVIDIA 宣布,RAPIDS cuDF 当前已能够为 950 万 pandas 用户带来 GPU 加速,且无需修改代码。

目前,NVIDIA 再次对这一应用进行了更新:现在无需在 Google Colab 中修改代码,即可直接使用 RAPIDS cuDF 为 pandas 提供加速。现在即可尝试在 Colab notebook 中使用这一教程。

pandas 是一个灵活且强大的 Python 数据分析和处理程序库,因其是易于使用的 API,已成为数据科学家的首选。但随着数据集规模的扩大,其在仅使用 CPU 的系统中的处理速度和效率方面遇到了挑战。

RAPIDS 是一套开源的 GPU 加速 Python 程序库,旨在改进数据科学和分析工作流。RAPIDS cuDF 是一个 GPU DataFrame 程序库,其提供了一个类似 pandas 的 API,用于加载、过滤和操作数据。cuDF 的早期版本只适用于 GPU 开发工作流程。

去年秋季,RAPIDS 发布了 cuDF 版本。该版本通过开放测试版中统一的 CPU/GPU 用户体验,在不修改代码的情况下将加速计算引入到 pandas 工作流中。在 GTC 2024 上,NVIDIA 宣布在新发布的 RAPIDS v24.02 中正式推出 cuDF 加速 pandas 功能。NVIDIA AI Enterprise 5.0 将在晚些时候支持这一功能。

点击观看使用 RAPIDS cuDF 将 pandas 提速近 150 倍的演示视频

视频中,两个相同的 pandas 工作流在 Jupyter notebook 中并列运行。其中一个使用了仅搭载 CPU 的 pandas,另一个则加载了 cudf.pandas 扩展,以便可以使用 RAPIDS cuDF 加速 pandas。

将统一的 CPU/GPU 体验引入 pandas 工作流

cuDF 一直使用类似于 pandas 的 API 为用户提供卓越的 DataFrame 程序库性能。但使用 cuDF 有时需要采取变通方法:

  • 对 cuDF 中尚未实现或支持的任何 pandas 功能采取变通方法。
  • 在必须在异构硬件上运行的代码库中,为执行 CPU 和 GPU 设计单独的代码路径。
  • 在与其他 PyData 程序库或专为 pandas 设计的、特定于组织的工具进行交互时,需要手动切换 cuDF 和 pandas。

在 24.02 版本中,除了提供现有的仅 GPU 使用体验外,cuDF 还能在无需更改代码的情况下加速 pandas,以应对这些挑战。

该功能专为数据科学家而设计,旨在即使数据规模增长到千兆字节、性能降低时仍然可以继续使用 pandas。当 cuDF 加速 pandas 时,在可能的情况下操作将在 GPU 上运行,否则将在(使用 pandas 的)CPU 上运行。这实现了统一的 CPU/GPU 体验,为用户自己的 pandas 工作流带来了领先的性能。

随着 GA 版本的发布,cuDF 可提供以下功能:

  • 无需更改代码的加速:只需加载 cuDF Jupyter Notebook 扩展或使用cuDF Python 模块选项。
  • 兼容第三方程序库:pandas 加速器模式与大多数在 pandas 对象上运行的第三方程序库兼容,甚至可以加速这些库中的 pandas 操作。
  • 统一的 CPU/GPU 工作流:使用单一代码路径进行开发、测试和生产运行,不受硬件限制。

如要将 GPU 加速功能引入 Jupyter notebook 中的 pandas 工作流,请加载 cudf.pandas 扩展:

%load_ext cudf.pandasimport pandas as pd

如要在运行 Python 脚本时访问,请使用 cudf.pandas 模块选项:

python -m cudf.pandas script.py

为 pandas 工作流带来顶尖的性能

当数据规模达到千兆字节时,pandas 往往会因为性能较慢而变得在使用过程中面临较多挑战,导致一些数据科学家不得不放弃他们喜爱的 pandas API。有了新的 RAPIDS cuDF,就可以继续将 pandas 作为主要工具使用并获得顶尖的性能。

用户可以通过运行流行的 DuckDB Database-like Ops Benchmark 中的 pandas 部分来了解这一点,该基准测试最初由 H2o.ai 开发。DuckDB 的基准测试方式是将一系列常见分析任务,例如将数据连接在一起或计算每组的统计量作为基准,来比较基于 CPU 的流行 DataFrame 和 SQL 引擎的性能。

在数据量为 5 GB 的情况下,pandas 的性能大幅下降,变得非常慢,仅仅执行一系列连接和高级分组操作就需要数分钟时间。

以往使用 cuDF 代替 pandas 运行此基准测试时,需要更改代码并解决功能缺失的问题。现在,借助 cuDF 的全新 pandas 加速模式,这个问题迎刃而解。用户可以在不改变pandas基准代码的情况下运行该基准测试,而且速度将大幅提升。其中的大部分操作由 GPU 执行,小部分操作由 CPU 执行,保证了工作流的顺利操作。

这样操作所取得的结果非常出色。cuDF 的统一 CPU/GPU 体验无需更改代码,即可将处理时间从原本几分钟缩短至 1 到 2 秒(图 1)。

图 1.cuDF.pandas 与传统 pandas v2.2 在标准 DuckDB 数据基准测试(5 GB)中的性能比较

硬件:NVIDIA Grace Hopper;CPU:英特尔 Xeon Platinum 8480C|软件:pandas v2.2、RAPIDS cuDF 23.10

更多有关这些基准测试结果以及如何重现这些结果的信息,请参见 cuDF 文档:https://docs.rapids.ai/api/cudf/stable/

结语

pandas 是 Python 生态系统中最流行的 DataFrame 程序库,但它的速度会随着 CPU 上数据量的增加而变慢。

现在只需一条命令,用户就可以在无需更改代码的情况下,使用 cuDF 将加速计算引入到其 pandas 工作流中。根据数据集大小为 5 GB 的分析基准测试结果,处理时间缩短到原来的 150 分之一。

您可参考详细的教程在 Google Colab 上的免费 GPU 环境中试用 cuDF 的 pandas 加速功能。点参见 RAPIDS 网站上的 cuDF pandas 页面,获取更多信息,请访问:https://rapids.ai/cudf-pandas/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
确认!巴萨将在2026世界杯密切考察五名目标,包括库库雷利亚

确认!巴萨将在2026世界杯密切考察五名目标,包括库库雷利亚

行舟问茶
2026-06-05 01:54:28
黄瓜大量上市,医生再三提醒:糖尿病患者吃黄瓜千万要多注意了!

黄瓜大量上市,医生再三提醒:糖尿病患者吃黄瓜千万要多注意了!

医学科普汇
2026-06-04 23:25:04
郑丽文如愿以偿,闭门会谈1小时,大陆讲出一句话,给出4点建议

郑丽文如愿以偿,闭门会谈1小时,大陆讲出一句话,给出4点建议

福建睿平
2026-04-12 08:17:53
2.9分进国家队,昨晚打17分钟运动战0分,球迷怒问:咋进的国家队

2.9分进国家队,昨晚打17分钟运动战0分,球迷怒问:咋进的国家队

南海浪花
2026-06-05 05:27:01
10倍速入眠!麻省理工“睡眠发箍”走红,3亿失眠人终于有救了?

10倍速入眠!麻省理工“睡眠发箍”走红,3亿失眠人终于有救了?

果壳
2026-06-04 21:03:22
法国“施压”不到24小时,俄军大杀器亮相,马克龙这下摊上事了

法国“施压”不到24小时,俄军大杀器亮相,马克龙这下摊上事了

云上乌托邦
2026-06-04 15:48:59
合租三年的女室友,突然要回老家相亲,我开玩笑说:干脆嫁我算了,谁知,她从床底拖出个箱子:行啊,我嫁妆备好了

合租三年的女室友,突然要回老家相亲,我开玩笑说:干脆嫁我算了,谁知,她从床底拖出个箱子:行啊,我嫁妆备好了

背包旅行
2026-06-04 11:27:26
《主角》大结局迎暴击!葬送了自己和儿子,刘红兵不该被全盘否定

《主角》大结局迎暴击!葬送了自己和儿子,刘红兵不该被全盘否定

电和影
2026-06-04 19:34:30
211院校降为普通本科!

211院校降为普通本科!

老吕教你考MBA
2026-06-02 11:57:50
中国这项最新突破,惊到我了

中国这项最新突破,惊到我了

罗富强说
2026-06-02 09:15:36
政变只是一个开始,伊朗要变天了,中国最担心的事情,恐将发生

政变只是一个开始,伊朗要变天了,中国最担心的事情,恐将发生

墨羽怪谈
2026-04-14 09:39:31
67岁大爷倾诉:请个住家保姆有偿陪伴,比找再婚老伴更加舒心省事

67岁大爷倾诉:请个住家保姆有偿陪伴,比找再婚老伴更加舒心省事

惟来
2026-06-01 09:50:09
1915年,孙中山大革命失败后求助洪门,洪门大佬拒绝:忘恩负义

1915年,孙中山大革命失败后求助洪门,洪门大佬拒绝:忘恩负义

干史人
2024-07-03 16:00:03
温瑞博、蒯曼分获男女单打银牌 国乒须求思求变了

温瑞博、蒯曼分获男女单打银牌 国乒须求思求变了

体坛周报
2026-03-16 00:26:15
非夫妻开房,牢记4条法律红线,记得告诉身边人

非夫妻开房,牢记4条法律红线,记得告诉身边人

小谈食刻美食
2026-06-04 07:15:14
转会市场炸锅!巴萨5年合同签阿尔瓦雷斯,伊劳拉成利物浦新帅

转会市场炸锅!巴萨5年合同签阿尔瓦雷斯,伊劳拉成利物浦新帅

宝哥精彩赛事
2026-06-04 11:37:35
打破38年惯例,越南告别平衡术,苏林要放手一搏,中国收到信号

打破38年惯例,越南告别平衡术,苏林要放手一搏,中国收到信号

讯崽侃天下
2026-04-08 10:00:17
我一直纠结刘涛的长相很久了,昨天拿去让老人家帮忙看看面相。

我一直纠结刘涛的长相很久了,昨天拿去让老人家帮忙看看面相。

小光侃娱乐
2026-05-13 11:59:03
身体不断出现这6个症状,十有八九是恶性肿瘤,最好去检查一下

身体不断出现这6个症状,十有八九是恶性肿瘤,最好去检查一下

医学原创故事会
2026-06-03 23:55:05
小米推出米家简约商务双肩包,149元

小米推出米家简约商务双肩包,149元

IT之家
2026-06-03 13:06:21
2026-06-05 06:11:00
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3554文章数 1458关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

特朗普:若达成协议 不排除与伊朗最高领袖会晤

头条要闻

特朗普:若达成协议 不排除与伊朗最高领袖会晤

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

AI公司的顶部在哪?

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

手机
时尚
亲子
旅游
家居

手机要闻

iPhone18 Pro Max:八大亮点全解析,还有额外的惊喜!

越做越素?美甲进入减法时代!

亲子要闻

深圳"临时上门带娃"火了:按小时收费,有人月入7000元,宝妈和幼师的新出路

旅游要闻

浪漫一“夏”!玉溪通海秀山公园5000余株绣球花盛放

家居要闻

220平对味儿家 空间情绪宅

无障碍浏览 进入关怀版