IBM 推出了一个名为 CodeFlare 的开源框架,旨在用于简化大数据和人工智能工作流程在混合云上的整合和有效扩展。根据介绍,CodeFlare 建立在 Ray 之上,Ray 是一个新兴的用于机器学习应用的开源分布式计算框架。CodeFlare 通过增加特定的元素来扩展 Ray 的能力,使工作流程的扩展更加容易。
IBM 方面指出,随着数据和机器学习分析几乎渗透到每个行业,任务变得越来越复杂。虽然为 AI 研究设计更大的数据集和更多系统很重要,但随着这些工作流程变得越来越多,研究人员也正在花费越来越多的时间来配置他们的设置,而不是完成数据科学。
如今创建机器学习模型是一项密集的手动任务;研究人员必须训练和优化模型,这涉及到了数据清洗、特征提取和模型优化等任务。而 CodeFlare 则有助于简化这一过程。它使用基于 Python 编程语言的接口来创建管道,通过它可以更轻松地集成、并行化和共享数据。CodeFlare 框架的目的是统一跨多个平台的管道工作流,而无需数据科学家学习新的工作流语言。
CodeFlare 管道可以部署在任何云基础架构上,包括新的 IBM Cloud Code Engine(一个无服务器平台)和 Red Hat OpenShift。同时,CodeFlare 还为事件触发器提供适配器,这意味着管道可以与其他云原生生态系统集成和桥接。此外,它还支持从众多来源(如云对象存储、数据湖和分布式文件系统)加载和分区数据。
CodeFlare 还应该意味着开发人员不必重复他们的工作或努力弄清楚过去同事做了什么来运行某个管道。“借助 CodeFlare,我们的目标是为数据科学家提供更丰富的工具和 API,让他们可以更加一致地使用,使他们能够将更多精力放在实际研究上,而不是配置和部署的复杂性上。”
IBM 称,他们希望这一框架能够为开发人员节省大量时间和精力来创建部署到混合云的管道。并举例表明,该公司的一个用户应用 CodeFlare 框架分析和优化 100,000 条管道来训练机器学习模型时,成功地将执行每个管道的时间从 4 小时缩短到 15 分钟。