大数据资料之常见的Hadoop十大应用误解学习

发布时间：2019-07-11 05:10:21 所属栏目：评测来源：95后码农

导读：副标题#e# 大数据之常见的Hadoop十大应用误解常见的Hadoop十大应用误解。 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。以下是常见的Hadoop十

副标题[/!--empirenews.page--]

大数据之常见的Hadoop十大应用误解常见的Hadoop十大应用误解。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。以下是常见的Hadoop十大应用误解和正解。

1. (误解) Hadoop什么都可以做

(正解) 当一个新技术出来时，我们都会去思考它在各个不同产业的应用，而对于平台的新技术来说，我们思考之后常会出现这样的结论 “这个好像什么都能做”，然而，更深入的去想，你就会发现“好像什么都需要重头做”。对于Hadoop，我常喜欢举Database来当例子。三十年前数据库(Database)刚出来时，上面并没有什么现成的应用方案(Application)，所以厂商在销售的过程中常需要花很多的时间去告诉客户说，如果今天你有了这个数据库，你就可以做什么什么的应用，而看起来的确好像数据库什么应用都可以做，因为毕竟大部分的应用都会需要一个数据库。只是三十年前所有的应用都得重头打造，我们今天习以为常的ERP、CRM等应用系统，当时并不存在的，那都是后来的事了。今天的Hadoop，正好有点像当年database 刚出来的时候，毕竟今天所有的应用或多或少都会开始去处理半结构、非结构化数据，而这些东西的确都是Hadoop擅长的，所以平台的适用性其实问题不大，重点还是在应用要由谁来搭建。

2. (误解) Hadoop无法扮演HPC (High Performance Computing) or Grid Computing的角色

(正解) 由于Hadoop本身是由并行运算架构(MapReduce)与分布式文件系统(HDFS)所组成，所以我们也看到很多研究机构或教育单位，开始尝试把部分原本执行在HPC 或Grid上面的任务，部分移植到Hadoop集群上面，利用Hadoop兼顾高速运算与海量储存的特性，更简易且更有效率地来执行工作。目前国外高能物理、生命科学、医学等领域，都已经有这样的应用案例，利用Hadoop集群与现有的HPC/Grid 搭配、协同运作，来满足不同特性的运算任务。

3. (误解) Hadoop只能做资料分析/挖掘(Data Mining/Analyst)

(正解) Hadoop特别适合来数据分析与挖掘的应用是毫无疑问的，但数据分析与挖掘是难度与深度都较高的一个应用，所需要的时间的积累也比较长，也因此让一般企业对于导入Hadoop视为畏途，甚至心怀恐惧。然而，从Etu知意图团队这一两年来辅导客户的经验来看，我们发现其实更多的应用，大多都在数据处理(Data Processing)这个部分，或者更精确地来说，Hadoop这个平台，特别适合数据预处理(Data pre-Processing)这种应用场景。无论是数据仓库的负载分流(DW Offload)、数据的汇总(Data Aggregation)、甚或是我们运用协同过滤算法(Collaborative Filtering)针对线下线上零售业所做的精准推荐应用(Recommendation)，广义上来看，都可以说是属于Data Processing的一环，毕竟，Big Data的来临，我们看data、运用data的角度与方式都必须要有所改变。

Big Data强调的不是对因果关系的渴求，取而代之的是关注于data之间的相关关系。
也就是说，重点在于要知道“是什么”，反而未必需要知道“为什么”。
所以, 它要求的是所有data的处理，而不只是随机样本的分析。
最后我们往往会发现，处理Big Data的简单算法所得到的来自于data呈现的事实，往往比分析small data的复杂算法所得到的来自data背后的原因，对企业带来的效益更大。

我强烈推荐大家去看Big Data: A Revolution That Will Transform How We Live, Work, and Think这本书，里面把我们面对Big Data该有的观点与看法，做了非常清楚的陈述，有简中的的翻译本，繁中的好像还没看到。

4. (误解) Hadoop就是BI (Business Intelligence)商业智能

(正解) 跟前面一样，这也是大多数人最容易误解的地方，因为Hadoop特别适合来做数据分析，所以就很直觉地把它想成 “那就是BI嘛”。会有这种误解，主要来自于对数据运用的整体架构的不清楚。传统BI是属于数据展现层(Data Presentation)，其数据的载体(Data Store)是数据库或数据仓库。对比来看，Hadoop就是专注在半结构化、非结构化数据的数据载体，跟BI是不同层次的概念。当然，Hadoop除了 Data Store外，又特别具备运算的特性，也因此特别容易带来这种观念上的混淆。至于半结构、非结构化数据的数据展现层部分，目前本身并不在Hadoop的生态体系内，而是由其他现有或新创的公司来填补这块空缺，所以，逐渐地我们会看到越来越多现有的BI tool，开始强调其自身与Hadoop的联系性与兼容性，同时，一些新创公司，也发展出完全不同于现有BI Tool的基于Big Data的数据展现层。

5. (误解) Hadoop就是ETL (Extract, Transform & Load)

(正解) ETL其实有两种意涵，它本身是一个概念，也同时是一个产品类别(Product Category)的总称。所以当我们听到“某某公司是做ETL产品的”的这种对话时，其中的 ETL，与DB、Application Server等名词是相同的，都是指向某种类别的IT产品。然而，如果就概念性上来看，ETL指的其实是数据运用的生命周期中的其中一个过程，跟我前面提到的数据预处理(Data pre-Processing)是同样一个概念，举凡数据清洗(Data Cleansing)、数据关联、数据汇总等，都包含在这个范畴内。所以当我们说Hadoop特别适合拿来做ETL时，在概念上，它是正确的，同时也能很清楚明白地定位出Hadoop在企业资料运用中所扮演的角色。但Hadoop终究不是一个ETL的产品，反倒是现有的ETL产品，也开始跟BI一样，去发展它在Hadoop上的可用性、联系性与兼容性。Etu团队之前在帮客户导入Hadoop做数据处理时，常常会用script语言来实现一些应用场景，最近一段时间以来，我们的技术顾问也开始运用3rd-party 的ETL tool来实作这一块，对企业客户来说，这是他们较熟悉的工具，也降低了他们进入Hadoop的门槛。

6. (误解) Hadoop跟传统storage没什么差别, 都特别适合来做资料的备份(Data Archive)

（编辑：常州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

华硕PRIME X299-DELUX	技嘉X570 AORUS ELITE
OPPO Reno7 Pro影像评	大唐联仪完成多项WI的