《大数据分析》期中考试
考试时间:30分钟
考试要求:每人限做一次
基本信息:
姓名:
班级:
学号:
1. 下列不属于大数据4V特点的是()?
A、Volume
B、Variety
C、Vivid
D、Value
2. 大数据4V中Volume代表的含义是()?
A、数据量大
B、类型多
C、速度快
D、价值高
3. 大数据4V中Variety指的是()?
A、数据处理速度快
B、数据类型多样
C、数据总量大
D、数据价值高
4. 大数据4V中Velocity强调数据的()?
A、产生与处理速度
B、存储容量
C、格式统一
D、安全性
5. 大数据4V中Value核心特点是()?
A、单条数据价值极高
B、价值密度低但整体价值大
C、数据无价值
D、只存储有价值数据
6. 大数据处理流程的第一步是()?
A、数据存储
B、数据采集
C、数据计算
D、数据可视化
7. 大数据处理流程的正确顺序是()?
A、采集→存储→计算→查询→可视化
B、存储→采集→计算→查询→可视化
C、采集→计算→存储→查询→可视化
D、计算→采集→存储→查询→可视化
8. 下列属于数据采集工具的是()?
A、HDFS
B、Spark
C、Flume
D、Hive
9. 主要用于高吞吐实时数据采集与分发的工具是()?
A、Kafka
B、HBase
C、Impala
D、Tableau
10. Flume主要擅长采集的数据类型是()?
A、日志数据
B、图片视频
C、数据库表
D、小文本
11. 大数据分布式文件存储系统是()?
A、HDFS
B、MySQL
C、Hive
D、Spark
12. HDFS不适合存储以下哪种数据()?
A、大文件视频
B、海量小文件
C、日志文件
D、压缩包
13. HDFS的主节点叫做()?
A、DataNode
B、NameNode
C、RegionServer
D、NodeManager
14. HDFS的数据实际存储节点是()?
A、NameNode
B、DataNode
C、HMaster
D、ResourceManager
15. 适合海量数据实时随机读写的分布式数据库是()?
A、HBase
B、HDFS
C、Excel
D、MySQL
16. HBase是一种什么类型数据库()?
A、关系型
B、NoSQL
C、小型桌面
D、单机文件
17. 第一代大数据离线计算框架是()?
A、Spark
B、MapReduce
C、Hive
D、Impala
18. MapReduce计算速度慢的主要原因是()?
A、内存计算
B、频繁读写磁盘
C、数据量太小
D、配置太高
19. 目前主流的大数据内存计算框架是()?
A、MapReduce
B、Spark
C、HBase
D、Kafka
20. Spark比MapReduce快的核心原因是()?
A、磁盘计算
B、内存计算
C、数据更少
D、代码更短
21. Spark核心抽象是()?
A、HDFS
B、RDD
C、Region
D、Table
22. 下列不属于Spark优势的是()?
A、支持离线计算
B、支持实时计算
C、小数据量更快
D、支持复杂计算
23. 将SQL转为大数据计算任务的数据仓库工具是()?
A、Hive
B、Kafka
C、Flume
D、HBase
24. Hive的主要特点是()?
A、实时查询秒级响应
B、自身不存储数据
C、适合小数据
D、直接操作内存
25. 支持大数据秒级实时SQL查询的引擎是()?
A、Hive
B、Impala
C、MapReduce
D、Excel
26. Impala相比Hive的优势是()?
A、查询更快
B、更稳定
C、支持更复杂SQL
D、占用内存更小
27. 下列属于数据可视化工具的是()?
A、Spark
B、Power BI
C、HDFS
D、Kafka
28. 下列不属于数据可视化工具的是()?
A、Tableau
B、ECharts
C、Hive
D、Power BI
29. 数据可视化的主要目的是()?
A、存储数据
B、让数据更易理解
C、采集数据
D、计算数据
30. 传统数据分析处理的数据特点是()?
A、海量多类型
B、小批量结构化
C、实时产生
D、分布式处理
31. 大数据处理与传统数据分析相比,优势是()?
A、只能处理结构化数据
B、可处理海量多类型数据
C、速度更慢
D、硬件要求更低
32. 小数据量手动做报表、简单统计用()?
A、Excel
B、Spark
C、HBase
D、Kafka
33. 适合存储中小规模结构化数据的关系型数据库是()?
A、MySQL
B、HDFS
C、HBase
D、Spark
34. 单台机器处理中量级数据,常用Python的库是()?
A、pandas
B、Hive
C、Kafka
D、Flume
35. 处理亿级以上海量数据必须用()?
A、Excel
B、Spark
C、记事本
D、单机Python
36. 下列属于非结构化数据的是()?
A、Excel表格
B、MySQL表
C、监控视频
D、固定格式日志
37. 下列属于结构化数据的是()?
A、图片
B、订单表
C、音频
D、聊天记录
38. 数据清洗的主要目的是()?
A、删除所有数据
B、修正错误、去重、补全
C、增加数据量
D、改变数据格式
39. 大数据采集的核心目标是()?
A、丢弃无用数据
B、统一收集分散数据
C、直接计算数据
D、直接展示数据
40. Kafka的作用类似于()?
A、快递中转站
B、仓库
C、加工车间
D、设计师
41. HDFS的生活化类比是()?
A、超市收银台
B、大型图书馆
C、计算器
D、翻译官
42. HBase适合的场景是()?
A、实时修改订单状态
B、一次性写入大文件
C、小数据单机存储
D、静态报表制作
43. MapReduce适合的场景是()?
A、实时推荐
B、离线批量统计
C、秒级查询
D、小数据快速计算
44. Spark适合的场景是()?
A、统计班级成绩
B、双11亿级订单分析
C、个人收支记录
D、小表格制作
45. Hive适合的查询场景是()?
A、离线批量查询
B、秒级实时查询
C、单条数据查询
D、小数据查询
46. Impala适合的查询场景是()?
A、实时秒级查询
B、离线批量统计
C、小数据报表
D、复杂多表计算
47. 下列不属于大数据技术应用场景的是()?
A、电商推荐
B、交通流量分析
C、个人手写日记
D、短视频用户画像
48. 大数据处理中“分布式”含义是()?
A、单台机器处理
B、多台机器协同处理
C、人工处理
D、离线处理
49. 大数据技术栈中,负责数据传输缓冲的是()?
A、Kafka
B、HDFS
C、Spark
D、Hive
50. 下列工具中,不做计算只做采集传输的是()?
A、Spark
B、Flume
C、Hive
D、Impala
51. 下列工具中,不存储数据只做查询转换的是()?
A、HDFS
B、HBase
C、Hive
D、MySQL
52. 大数据价值密度低指的是()?
A、所有数据都无价值
B、有用信息占比低
C、无法挖掘价值
D、数据总量太小
53. 实时数据处理对应的4V特点是()?
A、Volume
B、Variety
C、Velocity
D、Value
54. 大数据处理流程中,“加工数据”的环节是()?
A、采集
B、存储
C、计算
D、可视化
55. 大数据处理流程中,“存放数据”的环节是()?
A、采集
B、存储
C、查询
D、可视化
56. 大数据处理流程中,“查找数据”的环节是()?
A、计算
B、查询
C、存储
D、采集
57. 下列哪种场景最需要大数据技术()?
A、统计家庭开支
B、分析全国电商用户行为
C、制作班级花名册
D、手写会议记录
58. 小数据的特点是()?
A、类型多
B、体量小
C、处理慢
D、分布式
59. 下列不属于数据采集来源的是()?
A、APP日志
B、传感器
C、网站数据
D、空白纸张
60. HDFS默认数据备份数是()?
A、1
B、3
C、5
D、10
61. Spark不适合处理的数据规模是()?
A、亿级数据
B、千万级数据
C、百条小数据
D、十亿级数据
62. 下列工具中,属于实时计算支撑的是()?
A、Spark
B、MapReduce
C、Excel
D、记事本
63. 数据查询的目的是()?
A、获取需要的目标数据
B、永久存储数据
C、采集新数据
D、生成图表
64. Tableau的主要作用是()?
A、计算数据
B、制作可视化图表
C、存储数据
D、采集数据
65. 传统数据处理架构是()?
A、分布式
B、集中式
C、云端
D、边缘计算
66. 大数据处理架构主要是()?
A、集中式
B、分布式
C、单机
D、手工
67. 下列属于半结构化数据的是()?
A、JSON日志
B、图片
C、Excel表
D、视频
68. 大数据技术中,ETL中的L代表()?
A、抽取
B、转换
C、加载
D、计算
69. ETL中的E代表()?
A、Extract
B、Excel
C、Enable
D、Enter
70. 数据预处理不包括()?
A、清洗
B、集成
C、直接计算
D、转换
71. 下列哪种工具适合非技术人员查询大数据()?
A、Spark
B、Hive(SQL)
C、MapReduce
D、Flume
72. Kafka不具备的功能是()?
A、数据暂存
B、数据分发
C、复杂计算
D、高吞吐
73. Flume不适合采集()?
A、服务器日志
B、网站日志
C、高清电影
D、APP行为日志
74. HBase不支持()?
A、随机读写
B、实时修改
C、复杂SQL关联
D、海量存储
75. 下列说法正确的是()?
A、Excel可以处理亿级数据
B、Spark适合小数据
C、HDFS适合大文件存储
D、Hive适合实时秒查
76. 大数据分析最终服务于()?
A、数据存储
B、决策支持
C、数据采集
D、数据备份
77. 高职学习大数据应重点掌握()?
A、底层源码
B、应用场景与工具用途
C、硬件开发
D、复杂数学推导
78. 下列属于大数据核心价值的是()?
A、占用大量存储
B、挖掘规律辅助决策
C、产生更多数据
D、增加硬件成本
79. 数据采集、存储、计算属于大数据的()?
A、前端展示
B、核心流程
C、可视化环节
D、安全环节
80. 下列组合中,全部属于大数据工具的是()?
A、Excel、Word、PPT
B、HDFS、Spark、Hive
C、Photoshop、PR、AE
D、微信、QQ、抖音
81. 下列不属于大数据采集环节作用的是()?
A、收集APP日志
B、收集传感器数据
C、收集网站行为数据
D、直接生成分析报表
82. 数据采集时能保证数据不丢失、可故障恢复,体现了Flume的()?
A、高可靠
B、高计算
C、高存储
D、高可视化
83. Kafka作为消息队列,主要解决的问题是()?
A、数据复杂计算
B、数据永久存储
C、高并发数据缓冲与分发
D、数据图表展示
84. HDFS将大文件分块存储,主要目的是()?
A、降低安全性
B、支持分布式存储与扩容
C、方便手动修改
D、减少节点数量
85. HBase依赖的底层存储系统是()?
A、HDFS
B、Excel
C、Notepad
D、Word
86. MapReduce的核心计算思想是()?
A、单节点串行
B、内存实时
C、可视化展示
D、分而治之
87. Spark支持的编程语言不包括()?
A、Python
B、Scala
C、PHP
D、Java
88. Hive查询速度较慢,主要因为()?
A、需要转换成MapReduce/Spark任务
B、使用内存计算
C、数据量太小
D、不支持SQL
89. Impala能实现秒级查询,是因为()?
A、依赖MapReduce
B、直接内存并行查询
C、只处理小数据
D、不连接HDFS
90. 数据可视化最核心的价值是()?
A、占用更多存储空间
B、增加数据量
C、直观呈现数据规律
D、加快数据采集
91. 下列属于半结构化数据的是()?
A、纯图片
B、XML日志
C、Excel标准表
D、MP4视频
92. 数据清洗中“去重”的含义是()?
A、删除重复记录
B、删除全部数据
C、增加重复数据
D、修改数据格式
93. 分布式计算的优势是()?
A、只靠一台电脑
B、计算速度更慢
C、数据更不安全
D、多机协同、算力更强
94. 传统数据分析处理一般采用()?
A、集中式架构
B、分布式架构
C、云端多集群
D、边缘计算
95. 电商“双11”实时订单统计,最适合用()?
A、Excel
B、Spark
C、记事本
D、单机Python
96. 下列工具中,主要做“数据翻译”(SQL转计算任务)的是()?
A、Kafka
B、HDFS
C、Hive
D、Flume
97. 小数据量、临时快速做图表,优先选用()?
A、Spark
B、HBase
C、Hive
D、Excel
98. 大数据处理中ETL的正确顺序是()?
A、抽取→转换→加载
B、加载→转换→抽取
C、转换→加载→抽取
D、抽取→加载→转换
99. 下列场景最能体现大数据“Velocity高速”特征的是()?
A、存储历史档案
B、离线统计上月销量
C、直播实时在线人数统计
D、手工填写表格
100. 下列全部属于大数据存储工具的是()?
A、HDFS、HBase
B、Hive、Impala
C、Tableau、Power BI
D、Excel、Word
关闭
更多问卷
复制此问卷