网易首页 > 网易号 > 正文 申请入驻

openGauss DB4AI框架揭秘

0
分享至

1. openGauss AI框架的特点

DB4AI这个方向中,数据库通过集成AI能力,在用户进行AI计算时就可以避免数据搬运的问题。不同于其他的DB4AI框架,本次openGauss开源的原生框架是通过添加AI算子的方式完成数据库中的AI计算。

那么除了避免了数据搬运所带来的问题这个普遍优势,openGauss的AI框架还具有以下的优势和特点:

1)极低的学习门槛

当前最主流的计算框架:Tensorflow、pytorch、keras等大多依托于python语言作为构建的脚本语言,虽然python已经足够的简单易学但还是需要一定的学习成本。而当前的框架,设计提供了CREATE MODEL和PREDICT BY两种语法用于完成AI的训练和推断任务。该语法相比较python更加趋近于自然语言,符合人们的用语直觉。

CREATE MODEL point_kmeans USING kmeans FEATURES position FROM kmeans_2d WITH num_centroids=3;

SELECT id, PREDICT BY point_kmeans (FEATURES position) as pos FROM (select * from kmeans_2d_test limit 10)

2)极简的数据版本管理

本次DB4AI特性中还添加了snapshot功能。数据库通过快照的形式将数据集中的数据固定在某个时刻,同样也支持保存经过处理过滤的数据。功能分为全量保存和增量保存,其中因为增量保存每次仅存储数据变化,快照的空间占用大大的降低了。用户可以直接通过不同版本名称的快照直接获取相对应的数据。

3)极优的性能体验

相比于目前很多的AIinDB项目,openGauss的特性通过添加AI算子的方式将模型计算内置到数据库中。以算法训练为例,其中的数据的读取、模型的计算更新和最终的模型保存将在数据库的执行器中完成。这种方式将更加充分地利用和释放数据库的计算能力。深入内核的技术路线使得我们的特性在计算速度上优于其他更高层级的调用方法。

图1.与MADlib性能对比

2. 技术原理与优势

1)DB4AI-Snapshot

首先DB4AI.snapshot特性需要用户通过对操作数据存储的SQL查询指定哪些数据将填充新快照来创建快照。初始快照始终创建为操作数据的真实和可重用副本,使数据的特定状态不可变。因此,初始快照作为后续数据整理的起点,但它始终允许回溯到创建初始快照时原始数据的确切状态。

由于已创建的快照无法更改,因此在开始数据整理之前,必须“准备”快照。准备好的快照的数据可以进行协作修改,为模型训练做准备,特别是为数据管理做准备。此外,快照通过将每个操作作为元数据记录在DB4AI系统目录中,自动跟踪所有的更改,为数据提供完整的集成历史。

快照准备完成后,可以发布快照。发布的快照是不可变的,DB4AI系统强示只有发布的快照才能用于模型训练。保证训练任务

存档过时的快照以用于文档目的。在这种状态下,数据保持不变但不能用于训练新的模型。最后,清除快照,删除模式中的数据表以及视图、恢复存储空间。需要注意的是,快照管理为了实施严格的模型来源无法清除具有依赖的快照。

利用GUC参数,snapshot使用物化存储模式或者增量存储。在增量存储模式中,新快照对应的视图和数据表只保存相对父快照修改的内容,从而大大降低存储空间。

2)DB4AI-Query

原生AI框架深度内嵌于数据库内核中,通过查询优化和查询执行,构建包含AI算子的执行计划。计算完成后,框架的存储模块将负责保存模型相关信息。整个AI框架主体分成3部分,分别是:查询优化模块、计算执行模块和模型存储模块。

查询优化:

框架新增词法、语法规则CREATE MODEL、PREDICT BY作为AI计算入口。在查询优化中,模块负责简单的输入校验,包括:属性名合法性、算法当前是否支持、模型名称是否冲突等。校验完成后,该模块根据训练和推测任务生成对应的查询计划。

计算执行:

查询执行模块负责根据需求算法类型的不同添加相对应的AI算子到执行计划中,并执行运算其中包括数据读取和模型计算更新。各个算法之间高内聚低耦合,具有非常好的算法扩展性,对开发者之后添加算法友好。

模型存储:

当模型完成训练时,执行器会把模型数据以tuple的形式传递给存储模块,最终将模型保存到系统表gs_model_warehouse中。

接下来我们以CREATE MODEL为例介绍用于训练模型的查询语句是如何实现的:

  • 第一步 对Query进行词法分析、语法分析(Lex、Yacc)。通过识别模式类别和模式组合校对语句是否存在语法错误,生成分析树。
  • 第二步 通过词法分析、语法分析(Lex、Yacc)后,数据库会对得到的每一个分析树进行语义分析和重写。在语义分析生成查询树的过程中,针对命令类型为createmodelStmt的情况,数据库首先会对算法类型进行检查判断算法属于监督学习还是非监督学习,根据这个判断结果继而进一步校验查询语句所输入的属性、超参、模型名称是否非法等。校验完成后,语义分析生成查询树,传递给数据库执行器。
  • 第三步 在执行阶段根据算法类型的不同,执行器会添加不同的算法算子到执行计划中,将AI算子添加到扫描算子的上层。在算子执行计算的过程中,把扫描得到的数据输入到算法模型中进行计算和更新,最后根据超参设置的迭代条件结束算子执行。
  • 第四步 计算完成后,执行器会将已训练完成的模型以元组的形式传递给存储引擎,接收到的元组转写模型结构体,经校验保存到系统表gs_model_warehouse中。用户可以通过查看系统表的方式查看模型的相关信息。

DB4AI作为openGauss原创的高级特性,凝结了openGauss在AI上的全新实践,通过DB4AI进一步拓展了openGauss数据库的应用领域。

利用openGauss提供的开箱即用的DB4AI功能,既有效解决数据仓库、数据湖场景中数据搬迁的问题,又提升了数据迁移过程中涉及的信息安全问题。未来,结合openGauss的多模、并行计算等领先优势,必将进一步地形成统一的数据管理平台,减少数据异构、碎片化存储带来的运维、使用困难。DB4AI特性的发布,是将openGauss进一步打造成一把锋利的瑞士军刀的关键一步!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重挫,民航巨大损失!

重挫,民航巨大损失!

民航之翼
2024-12-01 19:30:03
大马士革街头枪声大作!巴沙尔的弟弟发动政变?

大马士革街头枪声大作!巴沙尔的弟弟发动政变?

大风文字
2024-12-01 19:01:37
朱芝松、章更生、陆克华等68人被查,唐仁健、王昊、楼文龙、刘星泰等75人被处分!11月反腐月报公布

朱芝松、章更生、陆克华等68人被查,唐仁健、王昊、楼文龙、刘星泰等75人被处分!11月反腐月报公布

鲁中晨报
2024-12-01 22:24:08
管晨辰是最让人讨厌的那种人

管晨辰是最让人讨厌的那种人

葱哥说
2024-12-01 20:41:35
大兴机场被北漂睡成“洗浴中心”,撕开当下社会最体面的一幕

大兴机场被北漂睡成“洗浴中心”,撕开当下社会最体面的一幕

这班我上够了
2024-11-30 13:50:03
炸裂!美国男星布莱尔家中去世,遗体被爱犬啃食,现场惨不忍睹

炸裂!美国男星布莱尔家中去世,遗体被爱犬啃食,现场惨不忍睹

南城无双
2024-12-01 15:19:21
叫顾客“爸爸”遭原配大闹的LV柜姐,开始带货:5天发8条卖货视频

叫顾客“爸爸”遭原配大闹的LV柜姐,开始带货:5天发8条卖货视频

派大星纪录片
2024-12-01 09:18:17
黑熊闯进村民家中,丈夫杀熊救妻!官方:两人无生命危险,黑熊尸体将用于高校科研科普

黑熊闯进村民家中,丈夫杀熊救妻!官方:两人无生命危险,黑熊尸体将用于高校科研科普

红星新闻
2024-12-01 12:53:10
大家还是理智的!优衣库拒用新疆棉后客流不降反增,生意火爆

大家还是理智的!优衣库拒用新疆棉后客流不降反增,生意火爆

映射生活的身影
2024-12-01 11:22:51
太反常!优衣库拒用新疆棉:账号反而涨粉销量大涨,问题出哪儿了

太反常!优衣库拒用新疆棉:账号反而涨粉销量大涨,问题出哪儿了

影像温度
2024-12-01 18:06:07
姆巴佩自我救赎!轰远射世界波,皇马生涯第10球,效率远逊C罗

姆巴佩自我救赎!轰远射世界波,皇马生涯第10球,效率远逊C罗

奥拜尔
2024-12-02 00:02:51
人民币大幅贬值!今日凌晨的三大消息全面发酵(12.2)!

人民币大幅贬值!今日凌晨的三大消息全面发酵(12.2)!

风口招财猪
2024-12-02 01:05:03
冯德莱恩:没想到欧盟98%的稀土、93%的镁、97%的锂竟然来自中国

冯德莱恩:没想到欧盟98%的稀土、93%的镁、97%的锂竟然来自中国

魏家东
2024-12-01 07:51:05
立陶宛对华示好,想获得原谅,中方已读不回:触碰底线要付出代价

立陶宛对华示好,想获得原谅,中方已读不回:触碰底线要付出代价

兵说
2024-11-30 23:18:01
太有魅力了!马龙参观台北101,美女董事长亲自接待!

太有魅力了!马龙参观台北101,美女董事长亲自接待!

青青子衿
2024-12-01 05:29:01
反政府军距离首都150公里,巴沙尔的弟弟发动政变?

反政府军距离首都150公里,巴沙尔的弟弟发动政变?

西楼饮月
2024-12-01 12:49:41
阿娇都胖成这样了,虎背熊腰五大三粗,还开演唱会圈钱,谁买单?

阿娇都胖成这样了,虎背熊腰五大三粗,还开演唱会圈钱,谁买单?

南城无双
2024-12-01 00:29:35
以前禁止卫星锅,大家都偷偷装,为何现在没人管了反而没人使用了

以前禁止卫星锅,大家都偷偷装,为何现在没人管了反而没人使用了

慎独赢
2024-11-30 22:20:03
特朗普表态将对华征税不到4天,中方宣布对美豁免关税,哪些深意

特朗普表态将对华征税不到4天,中方宣布对美豁免关税,哪些深意

魏家东
2024-12-01 07:42:06
一败涂地!广东球迷怒了,请求朱芳雨立即停止五个行为

一败涂地!广东球迷怒了,请求朱芳雨立即停止五个行为

南海浪花
2024-12-01 17:40:13
2024-12-02 02:47:00

科技要闻

我国首个商业航天发射场首发成功

头条要闻

湖南省委原常委落马后 其妻追讨5000万巨额债务引关注

头条要闻

湖南省委原常委落马后 其妻追讨5000万巨额债务引关注

体育要闻

勇士四连败,到底是谁的错?

娱乐要闻

黄晓明姥姥去世,祖孙俩手牵手好温馨

财经要闻

女首富,死刑!交出800亿,免死!

汽车要闻

科技是中国豪车梦的支点 腾势Z9走心试驾体验

态度原创

时尚
亲子
手机
艺术
游戏

今冬流行“不露腿”穿搭!舒适还保暖,巨洋气!

亲子要闻

加大加厚折叠儿童泡澡桶,家里有娃的放心入

手机要闻

华为Mate70标准版选择价值不高?了解完五点后,很真实了

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

梦幻西游超级联赛S2非诚勿扰2比0提前夺冠,德云皓子卫冕冠军

无障碍浏览 进入关怀版