加入收藏 | 设为首页 | 会员中心 | 我要投稿 常州站长网 (https://www.0519zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

在启动Jupyter Notebook时自动执行一段代码?

发布时间:2021-02-06 18:30:28 所属栏目:评论 来源:互联网
导读:二 如何管理与构建数据湖? 数据湖中数据难以管理主要体现在两个方面: 已经在数据湖存储OSS上面的数据如何高效的构建元数据。 非OSS数据如何高效的入湖建仓。 数据湖管理相关的主要功能包括元数据管理、元数据发现、数据库入湖建仓、实时数据入湖。接下来重

二 如何管理与构建数据湖?

数据湖中数据难以管理主要体现在两个方面:

已经在数据湖存储OSS上面的数据如何高效的构建元数据。

非OSS数据如何高效的入湖建仓。

数据湖管理相关的主要功能包括元数据管理、元数据发现、数据库入湖建仓、实时数据入湖。接下来重点介绍“海量文件元数据自动构建技术”和“入湖建仓数据管理技术”两个关键技术。

1 海量文件元数据自动构建技术

当以OSS作为数据湖存储,存储的数据文件具有以下几个特性:

  • 格式丰富:包括CSV、Text、JSON、Parquet、Orc、Avro、hudi、Delta Lake等格式,其中CSV、Text又包含多种自定义的分隔符等。
  • 文件数在百万级别:OSS的扩展性及性价比较好,用户存储在OSS的文件会是百万级别。
  • 文件动态上传:存储在OSS上面数据文件具有动态持续上传的特性,新的文件如何快速增量修改元数据。

为了高效的为OSS上面的海量数据构建元数据,阿里云DLA提出并实现了“海量文件元数据自动构建技术”。具体技术如下图所示,核心解决了:万表万分区识别、增量感知更新元数据两个问题。
 

在云上也已经有数千家企业使用数据湖服务满足数据应用,如友盟+ 的U-DOP数据开放平台根据友盟+多年沉淀的大数据领域经验,形成了以APP、WEB、小程序、广告营销、社会化分享和推送为基础的多端主题数据的采集和处理能力,为客户形成规范化的多端数据资产。尤其是利用了数据湖的弹性能力,应对了双十一峰值期间DAU暴涨的业务变化,例如,通过实施分析搜索关键词的变化,改变首页广告推荐信息,对活跃用户和下单用户分不同渠道的分析梳理,及时调整优惠策略,以吸引更多的客户新购及复购等。

数据库与大数据一体化趋势在加强,传统的数据库使用者与DBA,也可以使用及维护大数据系统,一体化解决大数据的问题。具体在DLA体现在数据库的数据无缝与大数据结合,比如DLA提供的一键入湖建仓的功能;DLA Serverless SQL兼容MySQL协议及部分语法。

DLA Serverless产品形态,开发者只需要使用平台接口即可,如使用DLA SQL的JDBC接口提交SQL,使用DLA Spark的OpenAPI提交Spark作业。开发者只需要关注业务逻辑本身,不需要关心平台的复杂逻辑。原来使用开源组件遇到的很多痛点都可以迎刃而解:

入门门槛高

Hadoop生态往往需要多个组件同时使用,比如Yarn、HDFS、Spark、Hive、Kerberos、Zookeeper等等。开发者需要了解所有组件,因为开发过程中这些组件往往都会接触到。

开发维护困难

开发者在开发过程中会遇到各个组件带来的使用问题,开发者需要了解所有这些组件以应对这些问题。这些加重了开发者的使用负担。

稳定性难以保障

开源组件本身都必须经过细致的调参并加上合适的硬件资源配置,才能良好运行,并且需要修复不少BUG,出现问题没有兜底。

缺乏适应云的性能优化

云上的OSS、PolarDB等组件都是云原生的组件,开源组件对这部分的改造适应不足,没有充分挖掘出更高的性能。

DLA从数据湖管理(帮助客户高效管理构建数据湖),Serverless Spark(提供高性价比的大规模计算),Serverless SQL(提供高性价比的在线交互式分析)三个方面帮助客户挖掘数据价值。整体架构如下所示。接下来,本文将从这三个方面,分别讲述相关技术挑战以及解决方案。

(编辑:常州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读