大数据电子商务选择题

2 Hadoop 集群搭建中，必须在hadoop-env.sh中配置的核心环境变量是。（）

A、HADOOP_HOME

B、JAVA_HOME

C、HDFS_NAMENODE_OPTS

D、YARN_RESOURCEMANAGER_OPTS

3 以下哪项是 MapReduce 的核心优势（）。

A、低延迟实时计算

B、分布式并行处理大规模数据

C、动态列扩展

D、事务一致性保障

4 Hadoop 配置文件中，core-site.xml里用于指定 NameNode 访问地址的参数是（）

A、dfs.defaultFS

B、fs.defaultFS

C、yarn.resourcemanager.address

D、mapred.job.tracker

5 yarn-env.xml文件的作用是（）。

A、设置了Hadoop基本运行环境的配置

B、设置了YARN框架运行环境的配置

C、设置了YARN框架的相关配置

D、设置了MapReduce框架的相关配置

6 HDFS 的命名空间由哪个组件管理（）。

A、DataNode

B、SecondaryNameNode

C、NodeManage

D、NameNode

7 Hive 最适合的应用场景是（）。

A、实时用户查询

B、离线海量日志分析

C、高频数据写入

D、随机数据读写

8 Hadoop 集群搭建中，配置 SSH 免密码登录的核心目的是（）。

A、提高集群安全性

B、简化节点间通信认证

C、防止密码泄露

D、提升数据传输速度

9 启动 Hadoop 集群时，首先启动的是哪个组件的服务（）

A、HDFS

B、YARN

C、MapReduce

D、JobHistoryServer

10以下哪个命令用于将本地文件上传至 HDFS （）

A、hdfs dfs -put

B、hdfs dfs -get

C、hdfs dfs -copyFromLocal

D、A 和 C 均可

11 HDFS 的存储策略中，默认每个数据块保留的副本数是（）

A、1 个

B、2 个

C、3 个

D、4 个

12 HBase 表的最小存储单元是（）

A、行

B、列族

C、单元格

D、列限定符

13 MapReduce 中，将输入数据转化为中间键值对的阶段是（）

A、Reduce 阶段

B、Shuffle 阶段

C、Map 阶段

D、输出阶段

14 Hadoop 集群搭建时，必须安装的依赖软件是（）。

A、MySQL

B、Tomcat

C、JDK

D、Nginx

15 Hive 通过哪种语言将查询转换为分布式计算任务（）

A、Java

B、Python

C、HiveQL

D、Scala

16 HBase 中，行键（Row Key）的特性是（）。

A、可重复

B、唯一且有序

C、随机生成

D、支持模糊查询

17 以下哪个命令用于格式化 HDFS 文件系统（）。

A、hdfs namenode -format

B、hdfs dfs -format

C、hadoop format

D、hadoop namenode format

18 Hadoop 的开发语言主要是（）。

A、Java

B、Python

C、Scala

D、C++

19 YARN 中，负责在单个节点上管理资源和任务的组件是（）。

A、ResourceManager

B、NodeManager

C、ApplicationMaster

D、Container

20 搭建 Hadoop 完全分布式集群时，需要修改的核心配置文件不包括（）

A、hive-site.xml

B、core-site.xml

C、yarn-site.xml

D、hdfs-site.xml

21 Hadoop 集群搭建中，用于实现节点间无密码通信的协议是（）。

A、SSH

B、FTP

C、NTP

D、HTTP

22 HDFS 中，DataNode 向 NameNode 发送心跳信息的默认间隔是（）。

A、30 秒

B、1 分钟

C、5 分钟

D、10 分钟

23 HiveQL 中，用于创建分区表的关键字是（）。

A、PARTITIONED BY

B、CLUSTERED BY

C、SORTED BY

D、DISTRIBUTED BY

24 HBase 中，行键（Row Key）的特性是（）。

A、可重复

B、唯一且有序

C、随机生成

D、支持模糊查询

25 下列哪项通常是Hadoop集群的最主要的性能瓶颈? （）

A、CPU

B、网络

C、磁盘

D、内存

26 下列关于Hadoop的说法错误的是（）。

A、Hadoop集群能够部署在不同的机器上

B、Hadoop集群搭建完成后，不能删减和增加节点

C、Hadoop能够在所有节点并行地处理数据，具有高效性

D、Hadoop上的应用程序可以用C++语言编写

27 关于Secondary NameNode哪项是正确?（）

A、它是 NameNode 的热备

B、它对内存没有要求

C、它的目的是帮助 NameNode合并编辑日志，减少NameNode启动时间

D、SecondaryNameNode 应与NameNode部署到一个节点

28 使用（）命令可以在HDFS上创建一个/Tipdm/Hadoop目录。

A、hdfs dfs -mkdir /Tipdm/Hadoop

B、hdfs dfs mkdir -C /Tipdm/Hadoop

C、hdfs dfs -mkdir -p /Tipdm/Hadoop

D、hdfs dfs mkdir /Tipdm/Hadoop

29 下列可以下载HDFS上的/user/root/live.xt文件至Linux本地的/opt目录下的命令是（）。

A、hdfs dfs -get /user/root/live.txt /opt/

B、hdfs dfs -download /user/root/live.txt /opt/

C、hdfs dfs -put /user/root/live.txt /opt/

D、hdfs dfs -move /user/root/live.txt /opt/

30 使用Hadoop官方的示例程序包hadoop-mapreduce-examples-3.1.4.jar中的wordcount模块，对HDFS上的/opt/data.txt文件进行单词计数，将结果保存至HDFS的/Tipdm/Hadoop目录下，下列命令正确的是（）。

A、hadoop jar \ $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar wordcount /opt/data.txt /Tipdm/Hadoop/

B、hadoop dfs \ $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar wordcount /opt/data.txt /Tipdm/Hadoop/

C、hdfs -jar \ $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar wordcount /opt/data.txt /Tipdm/Hadoop/

D、hdfs dfs \ $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar wordcount /opt/data.txt /Tipdm/Hadoop/

31 当提交某个MapReduce任务后，在任务列表中显示该任务的状态为“RUNNING”，这表示该任务当前的运行状态是（）。

A、正在接受中

B、正在执行中

C、等待执行中

D、任务恢复中

32 MapReduce适用于（）

A、任意应用程序

B、任意可以在Windows Server 2008上的应用程序

C、可以串行处理的应用程序

D、可以并行处理的应用程序

33 下面关于MapReduce模型中Map函数与Reduce函数的描述正确的是（）

A、一个Map函数就是对一部分原始数据进行指定的操作。

B、一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作。

C、Map与Map之间不是相互独立的。

D、Reducee与Reduce之间不是相互独立的。

34 对于Hadoop官方示例源码WordCount，从结构上可以分为3个部分，下列不属于程序核心模块的是（）。

A、Driver模块

B、Mapper模块

C、Reducer模块

D、Main模块

35 Hive是建立在（）之上的一个数据仓库。

A、HDFS

B、MapReduce

C、Hadoop

D、HBase

36 按粒度大小的顺序，Hive数据被分为:数据库、数据表、（）、桶?

A、元祖

B、栏

C、分区

D、行

37 为了使Hive命令在任何目录下生效，需要在（）文件中配置Hive的全局变量。

A、/etc/profile

B、/etc/hosts

C、/opt/apache-hive-3.1.2-bin/conf/hive-env.sh

D、/opt/apache-hive-3.1.2-bin/conf/hive-site.xml

38 创建Hive数据表时，指定字段之间的分隔符，需要使用（）语句。

A、fields terminated by

B、row format delimited

C、map keys terminated

D、collection items terminated by

39以下业务应用中，不属于Hive适用的场景的是（）。

A、实时的在线数据分析

B、数据挖掘（用户行为分析、兴趣分区、区域展示）

C、数据汇总（每天或每周用户点击量的点击排行）

D、非实时分析

40 使用MapReduce查询某个部门中薪资最高的员工姓名，如果输出结果的格式为“薪资员工姓名”，例如“8000 Alice”（假设薪资均为整数），那么输出键值对格式应该为（）。

A、job.setOutputKeyClass(IntWritable.class); job.setOutputValueClass(Text.class);

B、job.setOutputKeyClass(IntWritable.class); job.setOutputValueClass(LongWritable.class);

C、job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class);

D、job.setOutputKeyClass(Text.class); job.setOutputValueClass(FloatWritable.class);