分享一些容易被忽视的Hadoop面试题及答案
分析:首先明白什么是RAID,可以参考百科磁盘阵列。这句话错误的地方在于太绝对,具体情况具体分析。题目不是重点,知识才是最重要的。因为hadoop本身就具有冗余能力,所以如果不是很严格不需要都配备RAID。具体参考第二题。 28. 因为 HDFS 有多个副本,所以 NameNode 是不存在单点问题的。(错误 ) 29. 每个 map 槽就是一个线程。(错误 ) 分析:首先我们知道什么是map 槽,map 槽->map slotmap slot 只是一个逻辑值(org.apache.hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots),而不是对应着一个线程或者进程 30. Mapreduce 的 input split 就是一个 block。(错误 ) 31. NameNode 的 Web UI 端口是 50030,它通过 jetty 启动的 Web 服务。(错误) 32. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。(错误) hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分配的内存在hadoop-env.sh中设置,参数为HADOOP_HEAPSIZE,默认为1000M。 33、33. DataNode 首次加入 cluster 的时候,如果 log 中报告不兼容文件版本,那需要 NameNode执行“Hadoop namenode -format”操作格式化磁盘。(错误 ) 分析: 首先明白介绍,什么是ClusterID ClusterID 添加了一个新的标识符ClusterID用于标识集群中所有的节点。当格式化一个Namenode,需要提供这个标识符或者自动生成。这个ID可以被用来格式化加入集群的其他Namenode。 感谢您的观看,如有不足之处,欢迎批评指正。 【编辑推荐】
点赞 0 (编辑:常州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |