IPv6让脚下的每一粒沙子都与众不同
如上图所示,平台主要面临的挑战有:资源高效供给、安全防护、访问数据源的带宽保障。 1 资源高效供给 云原生平台基于阿里云的底座ECS&ACK&ECI,与阿里云IAAS资源大池打通,本Region跨可用区资源调度,保障资源的供给。支持1分钟弹300个节点,单客户在大Region 5w计算节点资源的保障。 2 安全防护 用户可以写任意的代码平台内运行,可能是故意恶性的攻击行为,如果没有任何保护,则平台面临安全危险。在安全方面,我们通过如下技术保障安全性:
镜像模式 每次全量同步源库一个Database下面所有表的数据到数据湖存储OSS之上,同步期间可以做到源库负载增加控制在10%以内。这里主要使用了全局统一数据分片调度算法。保持数据湖的数据和源库一致。 分区模式 面对归档场景支持按天全量及增量同步源库数据到数据湖,并以时间分区的方式进行组织,方便归档管理。这种模式能够做到小时级别的时间延迟。 增量模式 这种模式通过行列混存技术、commitlog及index管理技术,可以做到T+10min的数据入湖。其中通过delta的增量文件及异步compaction技术解决了小文件问题;通过delta增量文件及索引技术可以支持Database场景更新、删除日志的增量实时写入;通过commitlog的方式记录分区文件的映射,解决百万分区在传统Catalog管理模式性能慢的问题。 三 云原生数据湖平台需打通云基础设施
DLA整体是一个多租户的架构,分Region部署,每个Region的用户共享一套控制逻辑。虚拟集群VC是逻辑的隔离单元。平台支持 Serverless Spark、Serverless SQL等引擎,打造云原生服务。 万表万分区识别 用户OSS上面的文件数量会到百万级别,这些文件不仅格式不同,比如JSON、CSV、Text等,而且同一种格式由于业务属性不同具体的Schema字段也不一样。该技术通过文件Schema识别器搭配文件分类器支持自动生成万表万分区。其中文件Schema识别器比如针对JSON单文件识别到0.15s、CSV单文件识别0.2s,搭配可插拔的智能采样策略及分布式策略,百万文件的Schema识别可以到分钟级别。文件分类器通过树的结构进行聚合、剪枝、压缩,百万级别文件的分类识别需要290ms左右。 增量感知更新 户会往OSS上面持续不断的上传文件,元数据自动构建既要把属于已经创建表的文件Schema变化更新到已有的表,同时对独立新增的文件创建新的表。这里一方面“文件Schema识别器”通过获取OSS上面文件的增加、删除变化对变化的文件进行识别,同时“文件分类器”对新增的文件Schema和已经创建的表进行对别生成变化策略,目前支持增加分区、增加字段、字段不更改、不感知文件删除4种策略,后续可以持续添加新的策略。 2 入湖建仓数据组织技术
把DataBase及消息日志服务的数据统一存储到数据湖存储OSS进行管理,能够满足计算加速、构建数仓归档、冷热分离等业务需求。DLA的入湖建仓数据组织技术包括三种数据组织管理模式:镜像模式、分区模式、增量模式,三种模式能够搭配友好支持这些业务场景。 (编辑:常州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |