加入收藏 | 设为首页 | 会员中心 | 我要投稿 常州站长网 (https://www.0519zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 移动互联 > 评测 > 正文

大数据资料之常见的Hadoop十大应用误解学习

发布时间:2019-07-11 05:10:21 所属栏目:评测 来源:95后码农
导读:副标题#e# 大数据之常见的Hadoop十大应用误解常见的Hadoop十大应用误解。 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。以下是常见的Hadoop十

(正解) 熟悉storage的人,第一次看到Hadoop时,往往只会注意到它的分布式文件系统HDFS,然后开始拿它来与现有的storage的功能特性做比较,而忽略掉Hadoop本身并行运算的那一块。这很合理,毕竟MapReduce的概念,在应用上是比较抽象且难以捉摸的,相反的,HDFS就是一个很清楚且具象的概念。Hadoop当然可以拿来做data archive的运用,但如果你本身的数据没有被经常或偶尔拿出来使用的需求(也就是我们所说的cold data)的话,Hadoop本身的HDFS作为data archive并不会有特别的优势,反而传统storage的一些延伸的功能特性,Hadoop本身并不具备。虽然HDFS本身是一个不错的object store,具备有作为scale-out NAS的底层的特性,, 但也就仅限于此了, Hadoop本身并没有特别为它外加storage本身该具有的功能,毕竟Hadoop当初设计时,对数据的储存与运用的思考,与storage的应用场景是完全不一样的。Hadoop本身要解决的,反而是现有当数据被放进storage后,需要再被拿出来处理或运算时所遇到的困难性。也因此,它特别适合那些web click-stream、CDR (call detail record)、GPS data, system log、 and other time-series data等数据,因为这些数据都具有需要经常被拿出来分析处理的特性。在实际应用中,Hadoop与传统storage其实是相辅相成的,辟如说,我们可能会在Hadoop上放过去3到6个月的数据,因为这些数据的再被利用性较高,而6个月之后的数据就可能会把它archive在传统的storage内,因为它被再利用的程度低很多了。

7. (误解) Hadoop是一个搜索引擎(Search Engine)

(编辑:常州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读