a16z:现代数据基础架构的新兴架构

作为一个行业,我们在构建大型复杂软件系统方面异常出色。现在,我们开始看到围绕数据构建的大型,复杂系统的兴起-系统的主要商业价值来自于数据分析,而不是直接来自软件。我们看到这一趋势在整个行业中产生的快速影响,包括新角色的出现,客户支出的变化以及提供围绕数据的基础架构和工具的新创业公司的出现。

实际上,当今许多发展最快的基础设施初创公司都在开发产品来管理数据。这些系统使数据驱动决策(分析系统)的产品。它们的范围从承载数据的管道,存储数据的存储解决方案,分析数据的SQL引擎到使数据易于理解的仪表板-从数据科学和机器学习库到自动化数据管道,再到数据目录等。

然而,尽管有所有这些精力和动力,但我们发现,在引领这一趋势的领先技术以及如何在实践中使用这些技术方面,仍然存在着巨大的困惑。在过去的两年中,我们与数百位创始人,公司数据负责人和其他专家进行了交谈,包括采访了他们当前数据堆栈中的20多名从业人员,以期整理出新兴的最佳实践并围绕数据基础设施制定通用的词汇表。这篇文章将开始分享这项工作的成果,并向技术专家展示推动该行业向前发展的技术。

获取更多前沿科技信息访问:https://byteclicks.com

该报告包含从数十位从业者的讨论中汇编而来的数据基础结构参考体系结构。感谢所有为这项研究做出贡献的人!

8T3V

数据基础设施市场的大规模增长

本报告的主要动机之一是,过去几年来数据基础设施的迅猛发展。根据Gartner的数据,2019年数据基础设施支出达到了创纪录的660亿美元,占所有基础设施软件支出的24%,并且还在增长。根据Pitchbook的数据,在过去5年中,排名前30位的数据基础设施初创公司已筹集了超过80亿美元的风险投资,总价值为350亿美元。

精选数据基础设施初创公司2015-2020年筹集的风险投资

8T3W

数据竞争也反映在就业市场上。数据分析师,数据工程师和机器学习工程师在Linkedin上的2019年增长最快的角色中名列前茅。根据NewVantage Partners的数据,《财富》 1000强企业中有60%的公司聘用了首席数据官,而2012年仅为12%,这些公司的表现大大超过了他们麦肯锡的增长和盈利能力研究的同行。

最重要的是,数据(和数据系统)直接对业务成果做出贡献-不仅在硅谷的科技公司中,而且在传统行业中。

统一数据基础架构

由于能源,资源和数据基础架构市场的增长,数据基础架构的工具和最佳实践也在迅速发展。如此多,很难对所有部分如何组合在一起有一个统一的看法。这就是我们着手提供的一些见解。

我们询问了领先的数据组织的从业者:(a)他们的内部技术栈是什么样的(b)如果他们要从头开始构建新的技术栈,是否会有所不同。

这些讨论的结果是以下参考架构图:

数据基础架构的统一架构

现代数据基础架构的新兴架构

注意:不包括事务系统(OLTP),日志处理和SaaS分析应用程序。单击此处以获取高分辨率版本

该图的各列定义如下:

现代数据基础架构的新兴架构

这种体系结构中发生了很多事情–远远超出了大多数生产系统中的情况。试图提供所有用例的统一体系结构的全貌。而且,尽管最经验丰富的用户可能对此有所了解,但大多数人却没有。

这篇文章的其余部分着重于提供有关此体系结构及其在实践中最常实现的方式的更多信息。

数据基础结构在高层上有两个目的:帮助业务领导者通过使用数据(分析用例)做出更好的决策,以及将数据智能构建到面向客户的应用程序中,包括通过机器学习(操作用例)。

在这些广泛的用例周围,已经形成了两个平行的生态系统。数据仓库构成了分析生态系统的基础。大多数数据仓库都以结构化格式存储数据,并且通常设计为使用SQL(尽管Python越来越流行)来快速,轻松地从核心业务指标中生成洞察力。数据湖是运营生态系统的骨干。通过以原始格式存储数据,它可以提供定制应用程序和更高级的数据处理需求所需的灵活性,规模和性能。数据湖可使用多种语言进行操作,包括Java / Scala,Python,R和SQL。

未来的关键问题是:数据仓库和数据湖是否正在走向融合?也就是说,它们在堆栈中是否可以互换?一些专家认为,这种情况正在发生,并且正在推动技术和供应商格局的简化。其他人则认为,由于语言,用例或其他因素的差异,并行生态系统将持续存在。

建筑变化

数据基础架构受整个软件行业发生的广泛架构变化的影响,包括向云,开源,SaaS业务模型等的迁移。但是,除了这些之外,还有许多数据基础架构独有的转变。他们正在推动体系结构前进,并在此过程中经常破坏市场(如ETL工具)的稳定性。

现代数据基础架构的新兴架构

新兴能力

还出现了一组新的数据功能,这些功能需要一组新的工具和核心系统。其中许多趋势正在从头开始创建新的技术类别和市场。

现代数据基础架构的新兴架构

建立现代数据基础架构的蓝图

为了使该架构尽可能可行,我们请专家整理一套通用的“蓝图”,这是基于规模,复杂程度以及目标用例和应用程序的数据组织实施指南。

我们将在此处提供三个常见蓝图的高级概述。我们从现代商业智能的蓝图开始,该蓝图侧重于云本地数据仓库和分析用例。在第二个蓝图中,我们着眼于多模式数据处理,涵盖了围绕数据湖构建的分析和运营用例。在最终的蓝图中,我们将深入研究操作系统以及AI和ML堆栈的新兴组件。

三种常见的蓝图

现代数据基础架构的新兴架构

单击此处获取高分辨率版本

大多数进行机器学习的公司已经在这种模式下使用了部分技术。甚至依靠内部开发来获得新工具。

核心用例侧重于内部和面向客户的应用程序的数据驱动功能-在线(即响应用户输入)或以批处理模式运行。

与预先打包的ML解决方案相反,此方法的优势在于对开发过程的完全控制,可为用户带来更大的价值,并将AI / ML打造为核心的长期能力。对于仅测试ML,将其用于较小规模的内部用例或选择依赖供应商的公司而言,此蓝图不太合适-大规模进行机器学习是当今最具挑战性的数据问题之一。

展望未来

数据基础架构在架构级别上正在经历快速,根本的变化。建立现代数据堆栈涉及多种多样且不断增加的选择。现在,做出正确的选择比以往任何时候都更为重要,因为我们继续从纯粹基于代码的软件转向结合代码和数据以创造价值的系统。现在,有效的数据功能已成为各行各业公司的首要任务–赢得数据可以带来持久的竞争优势。

我们希望这篇文章可以作为指导,帮助数据组织了解当前的技术水平,实现最适合其业务需求的体系结构,并在此领域的持续发展中为未来做计划。

获得统一架构的高分辨率版本和现代数据基础架构的三个常见蓝图

下载架构图

上一篇:

下一篇:


标签