加入收藏 | 设为首页 | 会员中心 | 我要投稿 常州站长网 (https://www.0519zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 移动互联 > 评测 > 正文

大数据资料之常见的Hadoop十大应用误解学习

发布时间:2019-07-11 05:10:21 所属栏目:评测 来源:95后码农
导读:副标题#e# 大数据之常见的Hadoop十大应用误解常见的Hadoop十大应用误解。 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。以下是常见的Hadoop十
副标题[/!--empirenews.page--]

大数据之常见的Hadoop十大应用误解常见的Hadoop十大应用误解。

大数据资料之常见的Hadoop十大应用误解学习

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。以下是常见的Hadoop十大应用误解和正解。

1. (误解) Hadoop什么都可以做

(正解) 当一个新技术出来时,我们都会去思考它在各个不同产业的应用,而对于平台的新技术来说,我们思考之后常会出现这样的结论 “这个好像什么都能做”, 然而,更深入的去想,你就会发现“好像什么都需要重头做”。 对于Hadoop,我常喜欢举Database来当例子。 三十年前数据库(Database)刚出来时,上面并没有什么现成的应用方案(Application),所以厂商在销售的过程中常需要花很多的时间去告诉客户说,如果今天你有了这个数据库,你就可以做什么什么的应用,而看起来的确好像数据库什么应用都可以做,因为毕竟大部分的应用都会需要一个数据库。只是三十年前所有的应用都得重头打造,我们今天习以为常的ERP、CRM等应用系统,当时并不存在的,那都是后来的事了。今天的Hadoop,正好有点像当年database 刚出来的时候,毕竟今天所有的应用或多或少都会开始去处理半结构、非结构化数据,而这些东西的确都是Hadoop擅长的,所以平台的适用性其实问题不大,重点还是在应用要由谁来搭建。

2. (误解) Hadoop无法扮演HPC (High Performance Computing) or Grid Computing的角色

(正解) 由于Hadoop本身是由并行运算架构(MapReduce)与分布式文件系统(HDFS)所组成,所以我们也看到很多研究机构或教育单位,开始尝试把部分原本执行在HPC 或Grid上面的任务,部分移植到Hadoop集群上面,利用Hadoop兼顾高速运算与海量储存的特性,更简易且更有效率地来执行工作。目前国外高能物理、生命科学、医学等领域,都已经有这样的应用案例,利用Hadoop集群与现有的HPC/Grid 搭配、协同运作,来满足不同特性的运算任务。

3. (误解) Hadoop只能做资料分析/挖掘(Data Mining/Analyst)

(正解) Hadoop特别适合来数据分析与挖掘的应用是毫无疑问的,但数据分析与挖掘是难度与深度都较高的一个应用,所需要的时间的积累也比较长,也因此让一般企业对于导入Hadoop视为畏途,甚至心怀恐惧。然而,从Etu知意图团队这一两年来辅导客户的经验来看,我们发现其实更多的应用,大多都在数据处理(Data Processing)这个部分,或者更精确地来说,Hadoop这个平台,特别适合数据预处理(Data pre-Processing)这种应用场景。无论是数据仓库的负载分流(DW Offload)、数据的汇总(Data Aggregation)、甚或是我们运用协同过滤算法(Collaborative Filtering)针对线下线上零售业所做的精准推荐应用(Recommendation),广义上来看,都可以说是属于Data Processing的一环,毕竟,Big Data的来临,我们看data、运用data的角度与方式都必须要有所改变。

  • Big Data强调的不是对因果关系的渴求,取而代之的是关注于data之间的相关关系。
  • 也就是说,重点在于要知道“是什么”,反而未必需要知道“为什么”。
  • 所以, 它要求的是所有data的处理,而不只是随机样本的分析。
  • 最后我们往往会发现,处理Big Data的简单算法所得到的来自于data呈现的事实,往往比分析small data的复杂算法所得到的来自data背后的原因,对企业带来的效益更大。

我强烈推荐大家去看Big Data: A Revolution That Will Transform How We Live, Work, and Think这本书,里面把我们面对Big Data该有的观点与看法,做了非常清楚的陈述,有简中的的翻译本,繁中的好像还没看到。

4. (误解) Hadoop就是BI (Business Intelligence)商业智能

(正解) 跟前面一样,这也是大多数人最容易误解的地方,因为Hadoop特别适合来做数据分析,所以就很直觉地把它想成 “那就是BI嘛”。 会有这种误解,主要来自于对数据运用的整体架构的不清楚。传统BI是属于数据展现层(Data Presentation),其数据的载体(Data Store)是数据库或数据仓库。对比来看,Hadoop就是专注在半结构化、非结构化数据的数据载体,跟BI是不同层次的概念。当然,Hadoop除了 Data Store外,又特别具备运算的特性,也因此特别容易带来这种观念上的混淆。至于半结构、非结构化数据的数据展现层部分,目前本身并不在Hadoop的生态体系内,而是由其他现有或新创的公司来填补这块空缺,所以,逐渐地我们会看到越来越多现有的BI tool,开始强调其自身与Hadoop的联系性与兼容性,同时,一些新创公司,也发展出完全不同于现有BI Tool的基于Big Data的数据展现层。

5. (误解) Hadoop就是ETL (Extract, Transform & Load)

(正解) ETL其实有两种意涵,它本身是一个概念,也同时是一个产品类别(Product Category)的总称。所以当我们听到“某某公司是做ETL产品的”的这种对话时,其中的 ETL,与DB、Application Server等名词是相同的,都是指向某种类别的IT产品。然而,如果就概念性上来看,ETL指的其实是数据运用的生命周期中的其中一个过程, 跟我前面提到的数据预处理(Data pre-Processing)是同样一个概念,举凡数据清洗(Data Cleansing)、数据关联、数据汇总等,都包含在这个范畴内。所以当我们说Hadoop特别适合拿来做ETL时,在概念上,它是正确的,同时也能很清楚明白地定位出Hadoop在企业资料运用中所扮演的角色。但Hadoop终究不是一个ETL的产品,反倒是现有的ETL产品,也开始跟BI一样,去发展它在Hadoop上的可用性、联系性与兼容性。Etu团队之前在帮客户导入Hadoop做数据处理时,常常会用script语言来实现一些应用场景,最近一段时间以来,我们的技术顾问也开始运用3rd-party 的ETL tool来实作这一块,对企业客户来说,这是他们较熟悉的工具,也降低了他们进入Hadoop的门槛。

6. (误解) Hadoop跟传统storage没什么差别, 都特别适合来做资料的备份(Data Archive)

(编辑:常州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读