加入收藏 | 设为首页 | 会员中心 | 我要投稿 常州站长网 (https://www.0519zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 云计算 > 正文

如何避免数据转移陷阱

发布时间:2021-11-27 14:33:26 所属栏目:云计算 来源:互联网
导读:希望实现数据基础设施的现代化并将Hadoop迁移到云平台中吗?以下是组织在数据迁移之前需要问的五个问题: 1.迁移的数据量是多少? 组织需要确保有适当的机制来确保充分控制数据,以免对业务造成不良影响。在许多情况下,没有进行控制就开始移动数据的组织最终
希望实现数据基础设施的现代化并将Hadoop迁移到云平台中吗?以下是组织在数据迁移之前需要问的五个问题:
 
    1.迁移的数据量是多少?

    组织需要确保有适当的机制来确保充分控制数据,以免对业务造成不良影响。在许多情况下,没有进行控制就开始移动数据的组织最终会影响其他业务的运行,因此不得不停止迁移,并在工作日结束时重新启动数据迁移。
 
    2.在迁移过程中,如何在数据源和目的地之间保持一致的数据?
 
    当组织需要迁移不断变化的数据时(无论是接收新数据还是更新或删除现有数据),都可以进行选择。组织可以在数据源冻结数据直到迁移完成,或者允许数据在目的地继续更改。在这种情况下,需要弄清楚如何考虑这些更改,以便在迁移完成后不会获得已经严重过时的副本。
 
    为了防止数据源和目的地之间的数据不一致,需要找到一种方法来识别和迁移可能发生的任何更改。典型的方法是执行多次迭代以重新扫描数据集,并捕获自从上次迭代以来的更改。这种方法使组织可以迭代到一致状态。但是,如果组织有足够大的数据量并且经常变化,则可能永远无法赶上更改的步伐。这是一个相当复杂的问题,组织很多时候并没有真正预料到这将对其资源和业务产生全面的影响。
 
    另一种选择是在数据源冻结数据,以防止发生任何更改。这无疑使迁移任务变得简单得多。使用这种方法,无论是通过网络连接还是通过批量传输设备上传到新位置的数据副本,都与数据源中存在的数据一致,因为在迁移过程中不允许进行任何更改。
 
    这种方法的问题在于,它可能导致系统停机并且业务可能中断。这些系统是对业务至关重要的,而依赖它们的业务流程通常无法尝试将其关闭或冻结很长时间。使用批量传输设备,可能需要几天到几周的时间才能完成传输。如果通过专用网络连接传输数据,则取决于可用的网络带宽。为了在1GB的网络链路上移动1PB的数据,则需要90天以上的时间。对于绝大多数组织来说,数天、数周或数月的停机时间和业务中断是无法接受的。
 
    3.将如何处理迁移过程的人工处理或任何中断?
 
    如果组织停止了数据迁移或发生了中断,如何确定要从中恢复的点,以确切地知道已经正确迁移了多少数据。根据所使用的工具,是否有可能从那时开始恢复工作,或者组织是否必须从头开始有效地重新开始该过程?这是一个复杂的问题,如果组织不得不意外中断并继续进行迁移,则采用人工处理流程会带来巨大的风险和成本。人工同步处理数据的任何尝试都会占用大量资源,成本高昂且容易出错。尝试在两个环境中人工执行这一操作都很困难,如果尝试在多个环境中执行这一操作,则要复杂得多。

(编辑:常州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读