分享一些容易被忽视的Hadoop面试题及答案

发布时间：2019-04-11 15:34:51 所属栏目：教程来源：大数据资讯平台

导读：副标题#e# 在互联网高速发展的今天，很多人还没有搞清楚什么是PC互联网，移动互联网来了，我们还没搞清楚移动互联网的时候，大数据时代又来了。大数据已经无处不在，随之而来的就是大数据技术人才的急需，以下是关于大数据技术的面试问题，大家可以再面试前

分析：首先明白什么是RAID，可以参考百科磁盘阵列。这句话错误的地方在于太绝对，具体情况具体分析。题目不是重点，知识才是最重要的。因为hadoop本身就具有冗余能力，所以如果不是很严格不需要都配备RAID。具体参考第二题。

28. 因为 HDFS 有多个副本，所以 NameNode 是不存在单点问题的。(错误 )

29. 每个 map 槽就是一个线程。(错误 )

分析：首先我们知道什么是map 槽,map 槽->map slotmap slot 只是一个逻辑值(org.apache.hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots)，而不是对应着一个线程或者进程

30. Mapreduce 的 input split 就是一个 block。(错误 )

31. NameNode 的 Web UI 端口是 50030，它通过 jetty 启动的 Web 服务。(错误)

32. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。(错误)

hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分配的内存在hadoop-env.sh中设置，参数为HADOOP_HEAPSIZE，默认为1000M。

33、33. DataNode 首次加入 cluster 的时候，如果 log 中报告不兼容文件版本，那需要

NameNode执行“Hadoop namenode -format”操作格式化磁盘。(错误 )

分析：

首先明白介绍，什么是ClusterID

ClusterID

添加了一个新的标识符ClusterID用于标识集群中所有的节点。当格式化一个Namenode，需要提供这个标识符或者自动生成。这个ID可以被用来格式化加入集群的其他Namenode。

感谢您的观看，如有不足之处，欢迎批评指正。

【编辑推荐】

【责任编辑：未丽燕 TEL：（010）68476606】
点赞 0

（编辑：常州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

wifi密码忘了,教您wif	耳机没声音,教您耳机没
迅捷CAD编辑器怎么修改	光影魔术手怎么换照片