曾经,CDH 和 HDP 是市场上广泛使用的两款开源大数据平台。直到 2018 年 10 月,Hadoop 生态系统中发生了轰动性的大事件——Cloudera 和 Hortonworks 宣布合并。2019 年 1 月两家公司正式合并完成,并于同年 6 月推出全新一代数据平台产品 CDP(Cloudera Data Platform)。
1 原来盛行的 CDH/HDP 该何去何从?
在合并前,Cloudera 的原产品是 CDH,主要功能是进行数据加工和数据分析,其另一款产品 CDSW 主要用于 AI 和机器学习。而 Hortonworks 的原有产品是 HDP,主要功能是数据加工和数据仓库,该公司的另一款产品 HDF 主要用于物联网、实时数据采集和数据流失分析。
合并之后,Cloudera 对原有两家公司产品的功能进行整合。其新产品 CDP 结合了 Cloudera 原产品 CDH 和 Hortonworks 原产品 HDP 的优势部分,并在技术堆栈中增加了新的功能。
相对于 CDH/HDP,CDP 平台进行了大量的性能改进。
首先,在高级数据工程上,Spark3 性能提升了 2 倍,同时 Hive Warehouse Connector 也使数据工程更简单、更快捷。
其次,CDP 提供现代化数据仓库,与传统 MapReduce 相比,Hive on Tez 的有向无环图(DAG) 和数据传输原语提高了查询性能;Impala 的最新改进使性能提高了 2-7 倍;使用物化视图和查询缓存加快了 Hive 查询。
不仅如此,CDP 还提供可靠的数据库,支持 SQL 和 No SQL 的多模式,并将吞吐量性能提高 15%-20%。
从 CDH/HDP 迁移到 CDP,用户无疑将获得更好的产品使用体验。
此外,Cloudera 高级技术工程师王雪峰表示:CDH 和 HDP 将逐步走到生命的尽头。Cloudera 会给用户一定的过渡期,帮助其完成迁移。在此期间 CDH/HDP 不会再有新特性增强,仅就原有功能进行维护。最晚到 2022 年 3 月,全部用户都需迁移到 CDP 上,Cloudera 将不再对 CDH/HDP 的所有版本提供支持。
2 如何迁移到 CDP 上?
那么,用户该如何完成 CDH/HDP 到 CDP 的迁移呢?过程并不复杂,只要按照 Cloudera 提供的资料和指导进行,就可以顺利了完成迁移。
Cloudera 提供两种迁移方式——原地升级和迁移升级。
所谓原地升级是指卸载旧的 CDH/HDP,保留原有数据,然后安装新的 CDP 并升级,其优点在于不需要任何额外硬件资源,缺点在与服务停机时间相对较长并且需要多重认证。
所谓迁移升级是指安装新的 CDP 集群,然后将现有数据拷贝至新集群,将新的 CDP 集群切换为生产集群。选择这种方式没有丢失数据的风险且服务停机时间较短。但这种方式并不是十全十美,迁移升级需要额外的硬件资源、需要数据迁移,并且整体升级周期较长。
对于原地升级来说,其主要任务包含历史数据、Schema、批量脚本、外部应用四个部分。历史数据、Schema 可一次性完成原地升级。批量脚本、外部应用则需要先进行代码改造。
对于迁移升级来说,可以按照应用或者数据库等方式,依次进行升级,而不需要一次完成。迁移过程通常是新老集群的共同使用,来保证数据的运行情况。
综上所述,原地升级适合没有富余的主机资源用做中间集群的客户以及能够接受较长的服务器停机时间的客户。而迁移升级则适合有富余的主机资源,要求极短的服务宕机时间的客户。
目前,所有版本的 CDH/HDP 版本都支持升级到 CDP。但需要格外注意的是原地升级受到版本限制。
HDP2(2.6.5 以上版本)和 CDH5(5.13-5.16 版本)的用户可以直接采用原地升级,升级到 CDP7.0.3 以上版本。如果低于 HDP2.6.5 版本或 CDH5.13 版本,则需要先升级到对应版本再进行原地升级。而 CDH6 的用户都可以原地升级到 CDP7.1.7 以上版本;HDP3 的用户都可以原地升级到 7.1.6 以上版本。
迁移升级则不受版本的限制,不管 HDP2、HDP3 还是 CDH5、CDH6 都可以通过迁移升级,升级到 CDP7.0.3 以上的版本。
3 为什么选择 CDP,迁移到其他平台行不行?
新产品及迁移方式发布的同时,Cloudera 也发布了新的许可证政策。从 2019 年 11 月后,Cloudera 再发布的所有产品将不再提供社区版(免费版),只提供企业版(需在订阅后才能正常使用)。在 2021 年 1 月份后,产品订阅的 Paywall 也将扩展到平台的早期版本,包括所有版本的 CDH/HDP/HDF 等。这也就意味着,用户访问从 Cloudera 获得所有产品的二进制文件和源代码都将需要订阅协议。
对于新的许可政策,一些用户表示:Hadoop 在 Apache 中就可以获取,门槛并不高,既然 Cloudera 的 CDP 不再提供免费版,那迁移到其他平台是否可行呢?
在分享中,王雪峰表示,国内共有 39 家大数据平台供应商。其中 70% 以上是基于 CDH/HDP 封装出的产品;24% 是基于 Apache 封装出的产品,另外 3% 是自研产品。使用直接基于 Apache 封装出的产品或自研产品,很难满足企业级 A 类运维需求。
首先,Paywall 出现后,基于 CDH/HDP Logo 发布自己的版本属于商业上的盗版行为,这类厂商本身面临商业风险和合规问题,其用户自然也面临着同样的风险。其次,直接基于 Apache 封装的供应商往往不具备在社区提供支持、维护的能力和代码修复的能力和权限。第三,随着国家对安全合规要求越来越严格,由于用户不了解第三方库如何引用和下一代产品如何更新,将无法跟踪和解决 CVE 相关的安全审计。
相比于 Apache 封装出的产品和自研产品,Cloudera 能够提供专业的平台服务和完整、成熟的安全解决方案。CDP 涉及 39 个 Apache 组件,Cloudera 对超过 30 个 Apache 开源组件有绝对控制权。在服务方面,Cloudera 设有 30+ 的中文售后支持团队,拥有成熟的售后体系为用户提供支持。不仅如此,Cloudera 可以根据社区的反馈,决定未来产品的发展路线,包含哪些组建引入,哪些组建废弃。同时也能够决定第三方库的引用和更替。
如此看来,CDP 将成为企业数据云平台的不二之选。那么企业如何充分体验 CDP 的新功能呢?
今年 7 月 15 日,Cloudera 宣布与阿里云达成合作,Cloudera 在阿里云上推出了半托管形态的 CDP 企业数据云平台。在该平台上用户可对 CDP 功能进行尝试和产品使用。用户提交报名注册、进行实名认证后即可到 CDP 购买页 0 元试用该产品 30 天。
获得试用权限后,具体如何在阿里云上使用 CDP?在《基于阿里云部署的 CDP 产品详情》白皮书中,详细介绍了在阿里云上运行 Cloudera 并利用不同的阿里云服务(例如 ECS)的最佳实践。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.