IPv6让脚下的每一粒沙子都与众不同

发布时间：2021-02-06 18:29:43 所属栏目：评论来源：互联网

导读：如上图所示，平台主要面临的挑战有：资源高效供给、安全防护、访问数据源的带宽保障。 1 资源高效供给云原生平台基于阿里云的底座ECSACKECI，与阿里云IAAS资源大池打通，本Region跨可用区资源调度，保障资源的供给。支持1分钟弹300个节点，单客户在大Region

如上图所示，平台主要面临的挑战有：资源高效供给、安全防护、访问数据源的带宽保障。

1 资源高效供给

云原生平台基于阿里云的底座ECS&ACK&ECI，与阿里云IAAS资源大池打通，本Region跨可用区资源调度，保障资源的供给。支持1分钟弹300个节点，单客户在大Region 5w计算节点资源的保障。

2 安全防护

用户可以写任意的代码平台内运行，可能是故意恶性的攻击行为，如果没有任何保护，则平台面临安全危险。在安全方面，我们通过如下技术保障安全性：

一次密钥：每个Job任务都会去TokenServer申请临时的Token，Job失效Token会过期，如果存在攻击行为，则平台会直接让Token过期，则访问Meta等服务会被拒绝。
预防DDOS&注入攻击：所有的访问平台服务的请求，都会对接到安全防护中心，安全防护中心检测有任何攻击或者注入行为，直接关闭网络端口。
计算容器隔离：计算节点间采用阿里云自研的安全容器，容器本身可以实现VM相同的安全隔离级别。
安全白名单：用户互相之间的网络是完全隔离的。
ENI虚拟网卡：打通VPC需要配置自己账号下的安全组和虚拟交换机(VSwitch)，配置之后结算节点容器会分配用户VPC对应VSwitch网段的的IP，并挂载用户的安全组。

镜像模式

每次全量同步源库一个Database下面所有表的数据到数据湖存储OSS之上，同步期间可以做到源库负载增加控制在10%以内。这里主要使用了全局统一数据分片调度算法。保持数据湖的数据和源库一致。

分区模式

面对归档场景支持按天全量及增量同步源库数据到数据湖，并以时间分区的方式进行组织，方便归档管理。这种模式能够做到小时级别的时间延迟。

增量模式

这种模式通过行列混存技术、commitlog及index管理技术，可以做到T+10min的数据入湖。其中通过delta的增量文件及异步compaction技术解决了小文件问题;通过delta增量文件及索引技术可以支持Database场景更新、删除日志的增量实时写入;通过commitlog的方式记录分区文件的映射，解决百万分区在传统Catalog管理模式性能慢的问题。

三云原生数据湖平台需打通云基础设施

DLA整体是一个多租户的架构，分Region部署，每个Region的用户共享一套控制逻辑。虚拟集群VC是逻辑的隔离单元。平台支持 Serverless Spark、Serverless SQL等引擎，打造云原生服务。

万表万分区识别

用户OSS上面的文件数量会到百万级别，这些文件不仅格式不同，比如JSON、CSV、Text等，而且同一种格式由于业务属性不同具体的Schema字段也不一样。该技术通过文件Schema识别器搭配文件分类器支持自动生成万表万分区。其中文件Schema识别器比如针对JSON单文件识别到0.15s、CSV单文件识别0.2s，搭配可插拔的智能采样策略及分布式策略，百万文件的Schema识别可以到分钟级别。文件分类器通过树的结构进行聚合、剪枝、压缩，百万级别文件的分类识别需要290ms左右。

增量感知更新

户会往OSS上面持续不断的上传文件，元数据自动构建既要把属于已经创建表的文件Schema变化更新到已有的表，同时对独立新增的文件创建新的表。这里一方面“文件Schema识别器”通过获取OSS上面文件的增加、删除变化对变化的文件进行识别，同时“文件分类器”对新增的文件Schema和已经创建的表进行对别生成变化策略，目前支持增加分区、增加字段、字段不更改、不感知文件删除4种策略，后续可以持续添加新的策略。

2 入湖建仓数据组织技术

把DataBase及消息日志服务的数据统一存储到数据湖存储OSS进行管理，能够满足计算加速、构建数仓归档、冷热分离等业务需求。DLA的入湖建仓数据组织技术包括三种数据组织管理模式：镜像模式、分区模式、增量模式，三种模式能够搭配友好支持这些业务场景。

（编辑：常州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

攀上元宇宙的高枝，虚	亚马逊Echo部门高管加
荣耀60Pro首发体验拍	鼓励科研人员把更多时