机器学习期末复习考试

本次考试涵盖机器学习第1-8章核心知识点,题型包括单选、判断、填空和简答。请认真作答,考试时间90分钟。
1. 考生信息
姓名:
学号:
班级:
一、单选题(每题2分,共30题)
2. 以下哪个属于监督学习(Supervised Learning)?
3. 强化学习(Reinforcement Learning)与监督学习的主要区别在于?
4. 数据预处理(Data Preprocessing)中,以下哪种方法常用于处理缺失值(Missing Values)?
5. 以下哪个评估指标对离群值(Outliers)最敏感?
6. 以下哪种方法可以用来解决过拟合(Overfitting)问题?
7. 一个房价预测模型在训练集上RMSE=5万,测试集上RMSE=25万,说明模型存在什么问题?
8. 以下哪个是分类问题(Classification)的例子?
9. 在逻辑回归(Logistic Regression)中,Sigmoid函数的输出范围是?
10. 在混淆矩阵(Confusion Matrix)中,假正例(False Positive)指的是?
11. 岭回归(Ridge Regression)使用的是哪种正则化项?
12. 以下哪个是监督学习的典型应用?
13. PCA降维(Principal Component Analysis)的主要目标是?
14. 在特征工程中,线性判别分析(Linear Discriminant Analysis, LDA)与PCA的主要区别是?
15. 以下哪个是朴素贝叶斯(Naïve Bayes)算法的核心假设?
16. 随机森林(Random Forest)通过什么机制提高预测准确性?
17. 关于决策树(Decision Tree)与随机森林准确率的对比,通常正确的是?
18. 在Python中,以下哪个函数用于读取CSV文件?
19. 在使用statsmodels建立ARIMA模型时,`order=(2,1,0)`参数代表的准确含义是?
20. 导入ADF平稳性检验(Augmented Dickey-Fuller test)的正确语句是?
21. 运行K-Means后`kmeans.inertia_`的物理意义是?
22. 如果时间序列有长期趋势(Trend)或季节性(Seasonality),属于?
23. 对于类别极度不平衡的数据,交叉验证(Cross-validation)应使用?
24. 目标标签为离散值(如流失/留存),该任务属于?
25. 决策树在训练集上99%准确率,测试集60%,这种现象是?
26. 为了不漏掉真正流失的大客户,应优先追求高?
27. Bagging(Bootstrap Aggregating)的核心机制是?
28. XGBoost实例化用于流失预测(分类)的正确代码是?
29. 一封正常邮件被误判为垃圾邮件,在混淆矩阵中属于?
30. 以下哪个不是人工智能的主要分支?
二、判断题(每题1分,共17题)
31. 监督学习需要使用带标签的数据进行训练。
32. 数据标准化(Standardization)通常会使数据均值变为0,标准差变为1。
33. 对于同一个数据集,RMSE ≥ MAE。
34. 线性回归可以直接用于二分类问题。
35. 逻辑回归的名称来源于它使用了Sigmoid函数。
36. Lasso回归的惩罚项是权重的平方和。
37. 在信用卡欺诈检测中,把所有交易预测为正常也能获得99.9%准确率,但模型无实际价值。
38. RMSE越小模型性能越好。
39. 医疗诊断中漏诊代价高,应优先提高召回率。
40. 决策树选择分割特征时选择信息增益最大的特征。
41. 随机森林能降低方差、缓解过拟合。
42. 单链接(Single Linkage)使用两个簇中最远的一对元素距离。
43. K-Means可以用于时间序列外推预测。
44. ARIMA中d=0时模型退化为ARMA。
45. 无监督学习不需要标签。
46. XGBoost可以像随机森林那样完全并行训练。
47. 主成分分析(PCA)在进行降维时,会考虑数据的类别标签信息。
三、填空题(每空1分,共16空)
48. 决策树选择分割特征的依据是使___最大或___最小。
49. 随机森林的“随机”体现在___随机和___随机。
50. scikit-learn中线性回归的类是___,训练方法是___。
51. 查看DataFrame前5行用___,查看统计描述用___。
52. 检查缺失值数量用`data.___().___()`,删除含缺失值的行用`data.___()`。
53. 高斯朴素贝叶斯模型创建:`model = ___()`,训练:`model.___(X___train, y___train)`。
54. RBF核SVM:`SVC(kernel='______')`
55. 随机森林分类器:`______(n_estimators=100, random_state=42)`
56. 因子分析(Factor Analysis)假设每个观测变量可以由少数不可观测的___线性组合加上特殊误差项表示。PCA的第一个主成分是原始特征的___最大的线性组合。
四、简答题(每题5分,共2题)
57. 解释什么是过拟合(Overfitting),并列出两种解决方法。
58. 简述监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning)的主要区别。
更多问卷 复制此问卷