【机器学习基础知识】
1. 机器学习/数据挖掘:
- 数据挖掘是通过分析大量观测数据,找出其中的规律,并以可理解的方式呈现数据的方法。它包括模式识别、关联规则学习、聚类和异常检测等。
- 机器学习则是让计算机通过经验学习并改进在特定任务上的性能。根据是否有标注数据,机器学习可以分为有监督学习(如决策树、支持向量机)、无监督学习(如聚类、主成分分析)、半监督学习和强化学习。
2. 主动学习/无监督学习/有监督学习/强化学习/半监督学习/在线学习:
- 主动学习允许系统选择最有价值的未标注样本进行标注,以提高模型准确性。
- 无监督学习不依赖于标注数据,常见于发现数据内在结构,如K-means聚类。
- 有监督学习需要标注数据,例如神经网络和决策树。
- 强化学习是通过与环境交互学习最佳策略,如Q-learning。
- 半监督学习在少量标注数据和大量未标注数据下进行学习。
- 在线学习则是在数据流中连续接收新样本进行学习。
3. ID3/C4.5/CART算法:
- ID3算法基于信息增益选择划分属性,构建决策树。
- C4.5是ID3的改进版,引入了增益率,处理连续和离散属性更优。
- CART(Classification and Regression Trees)适用于分类和回归问题,使用基尼不纯度或Gini指数作为划分标准。
4. 神经网络/支持向量机/集成学习/K-means:
- 神经网络模拟人脑神经元工作原理,通过权重调整学习数据,常用在图像识别、自然语言处理等领域。
- 支持向量机(SVM)通过最大化边际最大化分类效果,其VC维理论确保了泛化能力。
- 集成学习如随机森林、梯度提升等,结合多个弱分类器形成强分类器,降低过拟合风险。
- K-means是简单的聚类算法,寻找数据的最佳K个聚类中心。
5. 过拟合与避免过拟合:
- 过拟合发生时,模型在训练集上表现好,但在测试集上表现差,原因是模型过于复杂或训练数据不足。
- 避免过拟合的方法包括获取更多数据、选择合适模型、特征选择、L1/L2正则化、Dropout、Early Stopping以及决策树的剪枝。
【其他知识点】
- Parzen窗:用窗函数估计概率密度,高斯函数常用因其平滑且易于计算。窗函数需非负且归一化。
- 梯度下降与牛顿法:梯度下降沿梯度负方向更新参数,适合大规模数据,牛顿法利用二阶导数信息,收敛更快但计算成本高。
- AdaBoost:通过迭代调整样本权重和构建弱分类器,减少错误率,最终组合弱分类器形成强分类器。
- SVM的结构风险最小化:最大化边际可以减小过拟合,同时考虑VC维来平衡模型复杂度和泛化能力。
- SVM的对偶形式:通过拉格朗日乘子将原始问题转换为对偶问题,简化求解。
- 线性不可分SVM:通过核函数将数据映射到高维空间实现线性可分,如径向基函数(RBF)核。
这些知识点涵盖了机器学习的基础理论和常用算法,对于理解模型训练、评估和优化至关重要。
2025-06-16 16:44:17
523KB
1