《大数据分析》期中考试

考试时间：30分钟

考试要求：每人限做一次

基本信息：

姓名：
班级：
学号:

1. 下列不属于大数据4V特点的是（）?

A、VolumeB、VarietyC、VividD、Value

2. 大数据4V中Volume代表的含义是（）?

A、数据量大B、类型多C、速度快D、价值高

3. 大数据4V中Variety指的是（）?

A、数据处理速度快B、数据类型多样C、数据总量大D、数据价值高

4. 大数据4V中Velocity强调数据的（）?

A、产生与处理速度B、存储容量C、格式统一D、安全性

5. 大数据4V中Value核心特点是（）?

A、单条数据价值极高B、价值密度低但整体价值大C、数据无价值D、只存储有价值数据

6. 大数据处理流程的第一步是（）?

A、数据存储B、数据采集C、数据计算D、数据可视化

7. 大数据处理流程的正确顺序是（）?

A、采集→存储→计算→查询→可视化B、存储→采集→计算→查询→可视化C、采集→计算→存储→查询→可视化D、计算→采集→存储→查询→可视化

8. 下列属于数据采集工具的是（）?

A、HDFSB、SparkC、FlumeD、Hive

9. 主要用于高吞吐实时数据采集与分发的工具是（）?

A、KafkaB、HBaseC、ImpalaD、Tableau

10. Flume主要擅长采集的数据类型是（）?

A、日志数据B、图片视频C、数据库表D、小文本

11. 大数据分布式文件存储系统是（）?

A、HDFSB、MySQLC、HiveD、Spark

12. HDFS不适合存储以下哪种数据（）?

A、大文件视频B、海量小文件C、日志文件D、压缩包

13. HDFS的主节点叫做（）?

A、DataNodeB、NameNodeC、RegionServerD、NodeManager

14. HDFS的数据实际存储节点是（）?

A、NameNodeB、DataNodeC、HMasterD、ResourceManager

15. 适合海量数据实时随机读写的分布式数据库是（）?

A、HBaseB、HDFSC、ExcelD、MySQL

16. HBase是一种什么类型数据库（）?

A、关系型B、NoSQLC、小型桌面D、单机文件

17. 第一代大数据离线计算框架是（）?

A、SparkB、MapReduceC、HiveD、Impala

18. MapReduce计算速度慢的主要原因是（）?

A、内存计算B、频繁读写磁盘C、数据量太小D、配置太高

19. 目前主流的大数据内存计算框架是（）?

A、MapReduceB、SparkC、HBaseD、Kafka

20. Spark比MapReduce快的核心原因是（）?

A、磁盘计算B、内存计算C、数据更少D、代码更短

21. Spark核心抽象是（）?

A、HDFSB、RDDC、RegionD、Table

22. 下列不属于Spark优势的是（）?

A、支持离线计算B、支持实时计算C、小数据量更快D、支持复杂计算

23. 将SQL转为大数据计算任务的数据仓库工具是（）?

A、HiveB、KafkaC、FlumeD、HBase

24. Hive的主要特点是（）?

A、实时查询秒级响应B、自身不存储数据C、适合小数据D、直接操作内存

25. 支持大数据秒级实时SQL查询的引擎是（）?

A、HiveB、ImpalaC、MapReduceD、Excel

26. Impala相比Hive的优势是（）?

A、查询更快B、更稳定C、支持更复杂SQLD、占用内存更小

27. 下列属于数据可视化工具的是（）?

A、SparkB、Power BIC、HDFSD、Kafka

28. 下列不属于数据可视化工具的是（）?

A、TableauB、EChartsC、HiveD、Power BI

29. 数据可视化的主要目的是（）?

A、存储数据B、让数据更易理解C、采集数据D、计算数据

30. 传统数据分析处理的数据特点是（）?

A、海量多类型B、小批量结构化C、实时产生D、分布式处理

31. 大数据处理与传统数据分析相比，优势是（）?

A、只能处理结构化数据B、可处理海量多类型数据C、速度更慢D、硬件要求更低

32. 小数据量手动做报表、简单统计用（）?

A、ExcelB、SparkC、HBaseD、Kafka

33. 适合存储中小规模结构化数据的关系型数据库是（）?

A、MySQLB、HDFSC、HBaseD、Spark

34. 单台机器处理中量级数据，常用Python的库是（）?

A、pandasB、HiveC、KafkaD、Flume

35. 处理亿级以上海量数据必须用（）?

A、ExcelB、SparkC、记事本D、单机Python

36. 下列属于非结构化数据的是（）?

A、Excel表格B、MySQL表C、监控视频D、固定格式日志

37. 下列属于结构化数据的是（）?

A、图片B、订单表C、音频D、聊天记录

38. 数据清洗的主要目的是（）?

A、删除所有数据B、修正错误、去重、补全C、增加数据量D、改变数据格式

39. 大数据采集的核心目标是（）?

A、丢弃无用数据B、统一收集分散数据C、直接计算数据D、直接展示数据

40. Kafka的作用类似于（）?

A、快递中转站B、仓库C、加工车间D、设计师

41. HDFS的生活化类比是（）?

A、超市收银台B、大型图书馆C、计算器D、翻译官

42. HBase适合的场景是（）?

A、实时修改订单状态B、一次性写入大文件C、小数据单机存储D、静态报表制作

43. MapReduce适合的场景是（）?

A、实时推荐B、离线批量统计C、秒级查询D、小数据快速计算

44. Spark适合的场景是（）?

A、统计班级成绩B、双11亿级订单分析C、个人收支记录D、小表格制作

45. Hive适合的查询场景是（）?

A、离线批量查询B、秒级实时查询C、单条数据查询D、小数据查询

46. Impala适合的查询场景是（）?

A、实时秒级查询B、离线批量统计C、小数据报表D、复杂多表计算

47. 下列不属于大数据技术应用场景的是（）?

A、电商推荐B、交通流量分析C、个人手写日记D、短视频用户画像

48. 大数据处理中“分布式”含义是（）?

A、单台机器处理B、多台机器协同处理C、人工处理D、离线处理

49. 大数据技术栈中，负责数据传输缓冲的是（）?

A、KafkaB、HDFSC、SparkD、Hive

50. 下列工具中，不做计算只做采集传输的是（）?

A、SparkB、FlumeC、HiveD、Impala

51. 下列工具中，不存储数据只做查询转换的是（）?

A、HDFSB、HBaseC、HiveD、MySQL

52. 大数据价值密度低指的是（）?

A、所有数据都无价值B、有用信息占比低C、无法挖掘价值D、数据总量太小

53. 实时数据处理对应的4V特点是（）?

A、VolumeB、VarietyC、VelocityD、Value

54. 大数据处理流程中，“加工数据”的环节是（）?

A、采集B、存储C、计算D、可视化

55. 大数据处理流程中，“存放数据”的环节是（）?

A、采集B、存储C、查询D、可视化

56. 大数据处理流程中，“查找数据”的环节是（）?

A、计算B、查询C、存储D、采集

57. 下列哪种场景最需要大数据技术（）?

A、统计家庭开支B、分析全国电商用户行为C、制作班级花名册D、手写会议记录

58. 小数据的特点是（）?

A、类型多B、体量小C、处理慢D、分布式

59. 下列不属于数据采集来源的是（）?

A、APP日志B、传感器C、网站数据D、空白纸张

60. HDFS默认数据备份数是（）?

A、1B、3C、5D、10

61. Spark不适合处理的数据规模是（）?

A、亿级数据B、千万级数据C、百条小数据D、十亿级数据

62. 下列工具中，属于实时计算支撑的是（）?

A、SparkB、MapReduceC、ExcelD、记事本

63. 数据查询的目的是（）?

A、获取需要的目标数据B、永久存储数据C、采集新数据D、生成图表

64. Tableau的主要作用是（）?

A、计算数据B、制作可视化图表C、存储数据D、采集数据

65. 传统数据处理架构是（）?

A、分布式B、集中式C、云端D、边缘计算

66. 大数据处理架构主要是（）?

A、集中式B、分布式C、单机D、手工

67. 下列属于半结构化数据的是（）?

A、JSON日志B、图片C、Excel表D、视频

68. 大数据技术中，ETL中的L代表（）?

A、抽取B、转换C、加载D、计算

69. ETL中的E代表（）?

A、ExtractB、ExcelC、EnableD、Enter

70. 数据预处理不包括（）?

A、清洗B、集成C、直接计算D、转换

71. 下列哪种工具适合非技术人员查询大数据（）?

A、SparkB、Hive（SQL）C、MapReduceD、Flume

72. Kafka不具备的功能是（）?

A、数据暂存B、数据分发C、复杂计算D、高吞吐

73. Flume不适合采集（）?

A、服务器日志B、网站日志C、高清电影D、APP行为日志

74. HBase不支持（）?

A、随机读写B、实时修改C、复杂SQL关联D、海量存储

75. 下列说法正确的是（）?

A、Excel可以处理亿级数据B、Spark适合小数据C、HDFS适合大文件存储D、Hive适合实时秒查

76. 大数据分析最终服务于（）?

A、数据存储B、决策支持C、数据采集D、数据备份

77. 高职学习大数据应重点掌握（）?

A、底层源码B、应用场景与工具用途C、硬件开发D、复杂数学推导

78. 下列属于大数据核心价值的是（）?

A、占用大量存储B、挖掘规律辅助决策C、产生更多数据D、增加硬件成本

79. 数据采集、存储、计算属于大数据的（）?

A、前端展示B、核心流程C、可视化环节D、安全环节

80. 下列组合中，全部属于大数据工具的是（）?

A、Excel、Word、PPTB、HDFS、Spark、HiveC、Photoshop、PR、AED、微信、QQ、抖音

81. 下列不属于大数据采集环节作用的是（）?

A、收集APP日志B、收集传感器数据C、收集网站行为数据D、直接生成分析报表

82. 数据采集时能保证数据不丢失、可故障恢复，体现了Flume的（）?

A、高可靠B、高计算C、高存储D、高可视化

83. Kafka作为消息队列，主要解决的问题是（）?

A、数据复杂计算B、数据永久存储C、高并发数据缓冲与分发D、数据图表展示

84. HDFS将大文件分块存储，主要目的是（）?

A、降低安全性B、支持分布式存储与扩容C、方便手动修改D、减少节点数量

85. HBase依赖的底层存储系统是（）?

A、HDFSB、ExcelC、NotepadD、Word

86. MapReduce的核心计算思想是（）?

A、单节点串行B、内存实时C、可视化展示D、分而治之

87. Spark支持的编程语言不包括（）?

A、PythonB、ScalaC、PHPD、Java

88. Hive查询速度较慢，主要因为（）?

A、需要转换成MapReduce/Spark任务B、使用内存计算C、数据量太小D、不支持SQL

89. Impala能实现秒级查询，是因为（）?

A、依赖MapReduceB、直接内存并行查询C、只处理小数据D、不连接HDFS

90. 数据可视化最核心的价值是（）?

A、占用更多存储空间B、增加数据量C、直观呈现数据规律D、加快数据采集

91. 下列属于半结构化数据的是（）?

A、纯图片B、XML日志C、Excel标准表D、MP4视频

92. 数据清洗中“去重”的含义是（）?

A、删除重复记录B、删除全部数据C、增加重复数据D、修改数据格式

93. 分布式计算的优势是（）?

A、只靠一台电脑B、计算速度更慢C、数据更不安全D、多机协同、算力更强

94. 传统数据分析处理一般采用（）?

A、集中式架构B、分布式架构C、云端多集群D、边缘计算

95. 电商“双11”实时订单统计，最适合用（）?

A、ExcelB、SparkC、记事本D、单机Python

96. 下列工具中，主要做“数据翻译”（SQL转计算任务）的是（）?

A、KafkaB、HDFSC、HiveD、Flume

97. 小数据量、临时快速做图表，优先选用（）?

A、SparkB、HBaseC、HiveD、Excel

98. 大数据处理中ETL的正确顺序是（）?

A、抽取→转换→加载B、加载→转换→抽取C、转换→加载→抽取D、抽取→加载→转换

99. 下列场景最能体现大数据“Velocity高速”特征的是（）?

A、存储历史档案B、离线统计上月销量C、直播实时在线人数统计D、手工填写表格

100. 下列全部属于大数据存储工具的是（）?

A、HDFS、HBaseB、Hive、ImpalaC、Tableau、Power BID、Excel、Word

更多问卷复制此问卷