加入收藏 | 设为首页 | 会员中心 | 我要投稿 常州站长网 (https://www.0519zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 移动互联 > 评测 > 正文

DataOps:现代数据管道的精髓

发布时间:2020-03-14 23:14:55 所属栏目:评测 来源:站长网
导读:副标题#e# 【金融特辑】光大****科技部DBA女神带你从0到1揭秘MGR DataOps,即Data和Operations组合。是在数据分析过程中,提升数据质量,减少数据分析的周期时间,提高效率的一系列实践,现在逐渐发展成了一门方法论。DataOps适用于从数据准备到报告的整个
副标题[/!--empirenews.page--] 【金融特辑】光大****科技部DBA女神带你从0到1揭秘MGR

DataOps,即Data和Operations组合。是在数据分析过程中,提升数据质量,减少数据分析的周期时间,提高效率的一系列实践,现在逐渐发展成了一门方法论。DataOps适用于从数据准备到报告的整个数据生命周期。

DataOps是一门快速发展的学科,用来管理不规则数据管道,这些数据管道遍布于各大公司的环境中。

曾几何时有那么一段美好的日子,只有两个数据管道:一个支持生成通用报告和分析活动的数据仓库,以及一个为投资者和董事会提供审计数字的财务报告的数据管道。如今,随着自助服务分析和机器学习的发展,公司拥有的管道数量随着数据分析师,数据科学家和需要大量数据的应用程序的增多而增多。每一个都需要专门的数据集和数据访问权限才能产生内容。这简直是管道爆炸!

如果没有DataOps,每个数据管道都将成为一个数据孤岛,与其他数据管道,数据集和数据生产者几乎没有关系。没有协作或重用,浪费大量的人工和返工,有大量的错误和数据缺陷,并且交付时间极慢。商业用户除了信任自己的数据外不信任任何数据,而且许多用户需要在没有任何数据或没有足够数据的情况下做出决策,因为他们等不及了。

DevOps的降临。在引入敏捷开发和DevOps技术之前,软件工程界一直受到类似问题的困扰。如今,DevOps的先驱例如Amazon,Google和LinkedIn等公司每天(甚至每小时或更快)部署软件版本,这是几年前无法想象的发展节奏。令人惊讶的是,即使周期时间加快了,软件错误和缺陷也有所减少。容器化和微服务的问世将进一步加速和强化软件交付周期。简而言之,DevOps可以以更低的成本更快地提供更好的代码。

对于DataOps来说

数据挑战。看到打破僵局的机会,数据世界正在紧紧抓住DevOps原则。 DevOps管理代码,工具和基础架构之间的联系,以加快应用程序功能的交付,而DataOps添加了第四个元素——数据——比其他三个元素相加更难以控制!在每个管道中,必须对数据进行标识、捕获、格式化、标记、验证、画像(profiled)、清理、转换、组合、聚合、保护、分类、治理(governance)、移动、查询、可视化、分析和操作。 呜!随着组织从数百个数据源收集大量数据,这些任务变得越来越复杂。

工具和人员。此外,每个任务还需要专门的工具管理。这些工具的范围从传统的ETL / ELT,数据质量和主数据管理工具到数据目录,数据准备和数据治理产品,再到报告,数据可视化和数据科学工具。这些工具中的每一个针对不同类型的用户——从IT部门的系统工程师和数据库管理员——到BI团队中的数据工程师,数据管理员和报表开发人员——到数据分析师,数据科学家和数据使用者业务部门。

协调所有的这些工具,技术和人员是一项巨大的工作,特别是在拥有规模庞大的开发团队,来自数百个来源的大量数据以及该领域的大量数据分析师和数据科学家的大型组织中。这就是为什么DataOps会发展起来。

DataOps框架

定义DataOps非常困难。它包含很多零件和过程。图1是试图绘制DataOps环境的关键组件的简化图。为了简化此环境,某些组织倾向于从单个供应商那里采购所有组件,例如大型软件或云提供商(例如Microsoft,Amazon,Oracle或IBM)或大数据工程专家(例如Infoworks)。其他人则喜欢使用一些最佳组合,用编排和监控工具将开源的组件和商业组件结合在一起。

图1 DataOps组件:

DataOps:现代数据管道的精髓

数据管道

图1中间的黑色箭头表示典型的数据管道,源数据通过管道逐步移动到三个阶段(数据采集,数据工程和数据分析)。这些管道代表了一个数据供应链,这个数据供应链可以处理,优化和丰富数据,以供各种业务用户和应用程序使用。一个管道可能会填充财务使用的OLAP多维数据集;另一个可能将集成的客户数据传递到实时Web应用程序;另一个可能会为建立活动响应模型的数据科学家创建一个细分的原始数据池。

数据技术

数据管道下方是用于采集,精炼和分析数据的主要技术类别。媒体最关注这四个类别:数据捕获,数据集成,数据准备和数据分析。因为这就是钱的来源——软件供应商每年通过销售数据产品产生数十亿美元的收入!不幸的是,对数据技术的过分重视,使得更为重要的数据过程变得黯然失色,而数据过程则是协调和驱动这些数据技术的。 (请参见下面的“数据处理”。)

如今,随着组织从批处理架构转向流式架构以支持大数据和物联网,数据捕获已成为热门技术类别。数据集成已成为传统数据仓库项目的基础,现在已成为主流。数据准备是一项新技术,旨在帮助数据分析人员建模自己的数据集,理想地利用IT管理的存储库(例如数据湖)中的数据。 数据分析师通过为商业用户提供查询,分析,可视化和共享见解的工具来完成该数据周期。

团队和交接。IT部门通过采集和集成数据来启动数据供应链。这个数据通常被创建成通用的,面向主题的数据文件。然后,数据工程团队将对数据进行查询和建模,以满足特定的业务需求和用例。最后,商业用户查询和分析目标数据集以创建报告,仪表板和预测模型。尽管本质上是线性的,但该循环还是有可能存在中间迭代,其中包含许多必须存储,跟踪和管理的中间步骤和文件。

数据存储是支持数据技术和团队的关键,其中包括在高性能列式数据库上运行的数据仓库,数据湖和数据沙箱。数据存储下面是计算架构,越来越多的计算架构是基于云,虚拟化,弹性的以及大规模并行的。

数据处理

那些试图仅仅依赖技​​术来构建和管理管道的组织注定要失败。它不仅需要技术,还需要定义明确的过程和方法来构建、更改、测试、部署、运行以及跟踪新功能和修改后的功能。它还需要管理这些过程生成的所有工件,包括代码、数据、元数据、脚本、指标、维度、层次结构等。而且,它需要协调数据技术并供给数据以及监控开发,测试和生产过程。这需要作业调度,事件触发器,错误处理和性能管理,以满足服务级别协议。

(编辑:常州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读