当前位置: 仪表板 >> 仪表板优势 >> 现代数据基础设施的新兴架构至澄分享
作为云计算和大数据行业,我们非常擅长构建大型复杂的软件系统。我们现在开始看到围绕数据构建的大规模复杂系统的兴起—这些系统的主要业务价值来自数据分析,而不是直接来自软件。我们可以看到这一趋势对整个行业的快速影响,包括新角色的出现、客户支出的转变,以及围绕数据提供基础设施和工具的创业公司的出现。
事实上,今天许多发展最快的基础设施创业公司都在构建产品来管理数据。这些系统支持数据驱动的决策(分析系统)并驱动数据驱动的产品,包括机器学习(运营系统)。它们的范围从传输数据的管道到容纳数据的存储解决方案,到分析数据的SQL引擎,到使数据易于理解的仪表板——从数据科学和机器学习库,到自动化数据管道,到数据目录。
数据基础设施在过去几年经历了猛烈的增长。根据Gartner的数据,年数据基础设施支持达到创纪录的亿美元,占所有基础设施软件支出的24%,并且还在不断增长。前30名数据基础设施初创公司在过去5年中筹集了超过80亿美元
的风险投资,总价值为亿美元。
01数据基础架构的更新
自从我们在年底发布了一组参考架构以来,数据基础设施行业的增长一直有增无减。在过去一年中,几乎所有关键行业指标都创下了历史新高,新产品类别的出现速度超过了大多数数据团队跟踪的速度。为了帮助数据团队掌握行业中发生的变化,我们发布了一组更新的数据基础架构架构。它们展示了分析和运营系统中当前最好的的部分,这些内容来自我们去年与之交谈的众多运营商。每个架构蓝图都包含自上一版本以来发生变化的摘要。
我们认为,核心数据处理系统在过去一年中保持了相对稳定,而支持工具和应用程序迅速激增。我们还探讨了平台开始出现在数据生态系统中的假设,这有助于解释我们在数据演变中看到的特定模式。
最新的架构图是在领先的数据从业者的帮助下根据他们内部运行的内容以及他们对新部署的建议进行编译的。第一张图显示了所有数据基础设施用例的统一概况:
第二张图放大了机器学习,这是一个复杂且日益独立的工具链:
在年的文章中,我们区分了支持数据驱动决策的分析系统和支持数据驱动产品的运营系统。我们将这些类别映射到三个模式或蓝图,通常由领先的数据团队来实施。
大家曾经关心这些架构模式是否会融合。一年后,这似乎并没有发生。特别是,分析和运营生态系统都持续蓬勃发展。像Snowflake这样的云数据仓库发展迅速,主要集中在SQL的用户和商业智能用例。但其他的技术也在加速—例如,像Databricks这样的数据仓库正在以前所未有的速度增长客户。我们采访过的许多数据团队都证实,异构性很可能会留在数据栈中。
其他核心数据系统—即输入和转换—已被证明同样稳定。这在现代商业智能模式中尤为明显,Fivetran和dbt(或类似技术)的组合几乎无处不在。但在一定程度上也适用于运营系统,其中已经出现了Databricks/Spark、Confluent/Kafka和Astronomer/Airflow等事实上的标准。
02新事物:寒武纪大爆发
围绕稳定的核心,数据栈在过去一年中发展迅速。从广义上讲,我们在两个领域看到了最多的变化:
旨在支持关键数据流程和工作流的新工具,例如数据发现、可观察性或ML模型审计
允许数据团队和业务用户以新的、更强大的方式从数据中产生价值的新应用程序,例如数据工作区、反向ETL和ML应用程序框架
我们还看到一些旨在增强核心数据处理系统的新技术的引入。值得注意的是,围绕分析生态系统中的指标层和运营系统的仓库模式一直存在积极的争论——这两者都在朝着有用的定义和架构方向发展。
在此背景下,我们将详细介绍每个主要的数据基础架构蓝图。下面的每个部分都显示了一个更新的图表和对关键更改的分析。
蓝图1:现代商业智能
适用于各种规模公司的云原生商业智能
较暗的框是新的或有意义的更改
人们对指标层的兴趣激增,这是一个在数据仓库之上提供一组标准定义的系统。这引起了激烈的争论,包括它应该具备哪些能力、哪些供应商应该拥有它以及它应该遵循什么规范。到目前为止,我们已经看到了几个可靠的纯游戏产品(如Transform和Supergrain),以及dbt扩展到这一类别的产品。
反向ETL供应商的增长很显著,尤其是Hightouch和Census。这些产品的目的是使用来自数据仓库的输出和见解来更新运营系统,例如CRM或ERP。
数据团队对新应用程序表现出更大的兴趣,来增强他们的标准控制板,尤其是数据工作区(如Hex)。从广义上讲,新的应用程序可能是云数据仓库日益标准化的结果—一旦数据结构清晰且易于访问,数据团队自然希望用它做更多事情。
数据发现和可观察性公司吸引并筹集了大量资金(尤其是MonteCarlo和Bigeye)。虽然这些产品的好处是显而易见的—更可靠的数据管道和更好的协作—但采用仍然相对较早,因为客户发现了相关的例子和预算。(尽管在数据发现方面有几家可信的新供应商——例如SelectStar、Metaphor、Stemma、Secoda、Castor——但我们通常将早期种子阶段的公司排除在图表之外。)
蓝图2:多模式数据处理支持分析和运营例子的演进数据库
没有改变的地方
数据处理(例如Databricks、Starburst和Dremio)、传输(例如Confluent和Airflow)和存储(AWS)中的核心系统继续快速增长,并构成了这个蓝图的支柱。
多模式数据处理在设计上仍然多样化,允许公司在分析和运营数据应用程序中采用最适合其特定需求的系统。
新的内容
湖屋结构的认知度和清晰度越来越高。我们已经看到许多厂商(包括AWS、Databricks、GoogleCloud、Starburst和Dremio)和数据仓库先驱都支持这种方法。湖屋的基本价值在于将强大的存储层与一系列强大的数据处理引擎(如Spark、Presto、Druid/Clickhouse、Python库等)配对。
存储层本身正在升级。虽然Delta、Iceberg和Hudi等技术并不新鲜,但它们正在加速采用并被构建到商业产品中。其中一些技术(尤其是Iceberg)还可以与Snowflake等云数据仓库互操作。如果异构性继续存在,这很可能成为多模式数据栈的关键部分。
流处理(即实时分析数据处理)的采用率可能会上升。虽然像Flink这样的第一代技术仍未成为主流,但具有更简单编程模型的新进入者(如Materialize和Upsolver)正在得到采用,而且,有趣的是,现有Databricks和Confluent的流处理产品的使用也开始加速.
蓝图3:人工智能和机器学习
用于机器学习模型的稳健开发、测试和操作的部分
没有改变的地方
与年相比,今天的模型开发工具基本相似,包括主要的云供应商(例如Databricks和AWS)、ML框架(例如XGBoost和PyTorch)以及实验管理工具(例如WeightsBiases和Comet),实验管理有效地将模型可视化和调整归为独立的类别。
构建和操作机器学习栈很复杂,需要专业知识。对许多数据团队来说,人工智能的生产仍然是一个挑战。
新的内容
ML行业正在围绕以数据为中心的方法进行整合,强调复杂的数据管理而不是增量建模改进。这有几个含义:
数据标签(例如Scale和Labelbox)的快速增长以及对闭环数据引擎的兴趣日益浓厚,主要以特斯拉的Autopilot数据管道为蓝本。更多地采用特征存储(例如Tecton),用于批处理和实时用例,作为以协作方式开发生产级ML数据的一种手段。
重新燃起了对至少部分自动化ML建模过程的低代码ML解决方案(如Continual和MindsDB)的兴趣。这些较新的解决方案专注于将新用户(即分析师和软件开发人员)带入机器学习市场。
使用预训练模型正在成为默认模式,尤其是在NLP中,并为OpenAI和HuggingFace等公司提供了便利。在微调整、成本和扩展方面,仍有许多有意义的问题需要解决。
ML运营工具(有时称为MLops)正变得越来越成熟,围绕ML监控作为最需要的例子和即时预算而构建。与此同时,大量新的运营工具——尤其是验证和审计——正在出现,最终市场仍有待确定。
人们越来越
转载请注明:http://www.aideyishus.com/lkgx/502.html