机器学习期末复习考试

本次考试涵盖机器学习第1-8章核心知识点，题型包括单选、判断、填空和简答。请认真作答，考试时间90分钟。

1. 考生信息

姓名：
学号：
班级：

一、单选题（每题2分，共30题）

2. 以下哪个属于监督学习（Supervised Learning）？

客户分群 (Customer Segmentation)关联规则挖掘 (Association Rule Mining)房价预测 (House Price Prediction)降维 (Dimensionality Reduction)

3. 强化学习（Reinforcement Learning）与监督学习的主要区别在于？

是否需要大量数据是否有延迟的奖励信号 (Delayed Reward)是否使用神经网络是否输出概率

4. 数据预处理（Data Preprocessing）中，以下哪种方法常用于处理缺失值（Missing Values）？

删除含有缺失值的行 (Deletion)用均值填充 (Mean Imputation)用中位数填充 (Median Imputation)以上都是

5. 以下哪个评估指标对离群值（Outliers）最敏感？

MAE (Mean Absolute Error)RMSE (Root Mean Squared Error)准确率 (Accuracy)召回率 (Recall)

6. 以下哪种方法可以用来解决过拟合（Overfitting）问题？

增加模型复杂度减少训练数据量增加正则化强度 (Regularization Strength λ)增加特征数量

7. 一个房价预测模型在训练集上RMSE=5万，测试集上RMSE=25万，说明模型存在什么问题？

欠拟合 (Underfitting)过拟合 (Overfitting)数据泄露正常表现

8. 以下哪个是分类问题（Classification）的例子？

预测明天的温度预测房价判断邮件是否为垃圾邮件 (Spam Detection)预测销售额

9. 在逻辑回归（Logistic Regression）中，Sigmoid函数的输出范围是？

(-∞, ∞)[0,1][0,100][-1,1]

10. 在混淆矩阵（Confusion Matrix）中，假正例（False Positive）指的是？

预测为正，实际为正 (TP)预测为负，实际为负 (TN)预测为正，实际为负 (FP)预测为负，实际为正 (FN)

11. 岭回归（Ridge Regression）使用的是哪种正则化项？

权重绝对值之和 (L1)权重平方和 (L2)权重立方和权重的最大值

12. 以下哪个是监督学习的典型应用？

客户分群关联规则挖掘房价预测推荐系统

13. PCA降维（Principal Component Analysis）的主要目标是？

最大化类别之间的差异最大化投影后方差 (Maximize Variance)最小化特征数量最大化特征之间的相关性

14. 在特征工程中，线性判别分析（Linear Discriminant Analysis, LDA）与PCA的主要区别是？

LDA是无监督降维，PCA是有监督降维LDA是有监督降维，PCA是无监督降维两者都是无监督降维两者都是有监督降维

15. 以下哪个是朴素贝叶斯（Naïve Bayes）算法的核心假设？

特征之间存在强相关性特征之间相互独立 (Conditional Independence)数据必须服从正态分布数据量必须大于1000

16. 随机森林（Random Forest）通过什么机制提高预测准确性？

增加模型复杂度多棵决策树的投票或平均 (Voting/Averaging)增加训练数据量使用更深的决策树

17. 关于决策树（Decision Tree）与随机森林准确率的对比，通常正确的是？

决策树 ≈ 随机森林决策树＞随机森林决策树＜随机森林随机森林一定过拟合

18. 在Python中，以下哪个函数用于读取CSV文件？

pd.read_excel()pd.read_csv()pd.read_json()pd.read_table()

19. 在使用statsmodels建立ARIMA模型时，`order=(2,1,0)`参数代表的准确含义是？

p=2, d=1, q=0q=2, d=1, p=0d=2, p=1, q=02个自变量，1个步长，0个残差

20. 导入ADF平稳性检验（Augmented Dickey-Fuller test）的正确语句是？

from sklearn.linear_model import adfullerfrom statsmodels.tsa.stattools import adfullerfrom scipy.stats import adfullerimport adfuller from statsmodels

21. 运行K-Means后`kmeans.inertia_`的物理意义是？

所有样本点到其所属最近聚类中心的距离平方和 (Within-cluster sum of squares)聚类中心之间的平均距离

22. 如果时间序列有长期趋势（Trend）或季节性（Seasonality），属于？

平稳数据 (Stationary)非平稳数据 (Non-stationary)随机不规则数据独立同分布 (i.i.d.)

23. 对于类别极度不平衡的数据，交叉验证（Cross-validation）应使用？

KFoldStratifiedKFold (分层K折)TimeSeriesSplitLeaveOneOut

24. 目标标签为离散值（如流失/留存），该任务属于？

回归 (Regression)分类 (Classification)聚类 (Clustering)降维 (Dimensionality Reduction)

25. 决策树在训练集上99%准确率，测试集60%，这种现象是？

欠拟合 (Underfitting)过拟合 (Overfitting)完美拟合聚合错误

26. 为了不漏掉真正流失的大客户，应优先追求高？

精确率 (Precision)召回率 (Recall)准确率 (Accuracy)F1分数

27. Bagging（Bootstrap Aggregating）的核心机制是？

Bootstrap抽样并行训练聚合 (Bootstrap Parallel Aggregation)串行训练调整权重聚类降维差分平稳化

28. XGBoost实例化用于流失预测（分类）的正确代码是？

xgb.XGBRegressor(n_estimators=120, max_depth=6)xgb.XGBClassifier(n_estimators=120, max_depth=6)xgb.train(n_estimators=120, max_depth=6)xgb.XGBClassifier(num_trees=120, depth=6)

29. 一封正常邮件被误判为垃圾邮件，在混淆矩阵中属于？

TP (True Positive)FP (False Positive)TN (True Negative)FN (False Negative)

30. 以下哪个不是人工智能的主要分支？

机器学习自然语言处理数据库管理计算机视觉

二、判断题（每题1分，共17题）

31. 监督学习需要使用带标签的数据进行训练。

对错

32. 数据标准化（Standardization）通常会使数据均值变为0，标准差变为1。

对错

33. 对于同一个数据集，RMSE ≥ MAE。

对错

34. 线性回归可以直接用于二分类问题。

对错

35. 逻辑回归的名称来源于它使用了Sigmoid函数。

对错

36. Lasso回归的惩罚项是权重的平方和。

对错

37. 在信用卡欺诈检测中，把所有交易预测为正常也能获得99.9%准确率，但模型无实际价值。

对错

38. RMSE越小模型性能越好。

对错

39. 医疗诊断中漏诊代价高，应优先提高召回率。

对错

40. 决策树选择分割特征时选择信息增益最大的特征。

对错

41. 随机森林能降低方差、缓解过拟合。

对错

42. 单链接（Single Linkage）使用两个簇中最远的一对元素距离。

对错

43. K-Means可以用于时间序列外推预测。

对错

44. ARIMA中d=0时模型退化为ARMA。

对错

45. 无监督学习不需要标签。

对错

46. XGBoost可以像随机森林那样完全并行训练。

对错

47. 主成分分析（PCA）在进行降维时，会考虑数据的类别标签信息。

对错

三、填空题（每空1分，共16空）

48. 决策树选择分割特征的依据是使___最大或___最小。

49. 随机森林的“随机”体现在___随机和___随机。

50. scikit-learn中线性回归的类是___，训练方法是___。

51. 查看DataFrame前5行用___，查看统计描述用___。

52. 检查缺失值数量用`data.___().___()`，删除含缺失值的行用`data.___()`。

53. 高斯朴素贝叶斯模型创建：`model = ___()`，训练：`model.___(X___train, y___train)`。

54. RBF核SVM：`SVC(kernel='______')`

55. 随机森林分类器：`______(n_estimators=100, random_state=42)`

56. 因子分析（Factor Analysis）假设每个观测变量可以由少数不可观测的___线性组合加上特殊误差项表示。PCA的第一个主成分是原始特征的___最大的线性组合。

四、简答题（每题5分，共2题）

57. 解释什么是过拟合（Overfitting），并列出两种解决方法。

58. 简述监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）和强化学习（Reinforcement Learning）的主要区别。

更多问卷复制此问卷