上传者: amoled
|
上传时间: 2025-11-10 15:50:40
|
文件大小: 1.1MB
|
文件类型: PPTX
### 机器学习基础知识
#### 什么是机器学习?
机器学习是一种数据驱动的方法,旨在使计算机能够从数据中自动学习并改进其行为,而无需明确编程。它属于人工智能的一个分支,主要研究如何让计算机从经验(数据)中学习并提高其性能。
#### 机器学习的核心要素
机器学习的核心可以归纳为三个要素:
1. **数据**(Data):提供给学习算法的原始输入。
2. **算法**(Algorithm):处理数据以产生模型的具体方法。
3. **模型**(Model):从数据中学到的结果。
#### 学习算法
学习算法是指用于从数据中提取模式并构建预测模型的计算过程。这些算法的目标是从给定的数据集中学习出一种模型,以便对新的未知数据做出准确的预测或决策。
#### 模型
在机器学习中,“模型”指的是从数据中学得的结果。它可以是任何类型的结构,如函数、决策树或神经网络等,用于预测新的数据点。
### 学习任务分类
机器学习的任务可以根据不同的标准进行分类,其中最基本的分类是根据是否有标注数据:
1. **监督学习**(Supervised Learning)
- **分类**(Classification):预测离散值,例如预测邮件是否为垃圾邮件。
- **回归**(Regression):预测连续值,例如预测房价。
2. **无监督学习**(Unsupervised Learning)
- **聚类**(Clustering):将数据集中的对象分成多个组,使得同一组内的对象彼此相似,不同组的对象彼此相异。
### 基本术语
- **数据集**(Dataset):由多个样本组成的集合。
- **样本**:关于一个事件或对象的描述。
- **属性或特征**:反映事件或对象在某方面的表现或性质的事项。
- **属性值**:属性上的取值。
- **样本空间**:由所有可能的样本组成的空间。
- **独立同分布**(IID):假定每个样本都是从同一个概率分布中独立抽取的。
- **特征向量**:在样本空间中,每个样本都可以表示为一个向量。
### 学习与测试
- **学习(Learning)或训练(Training)**:从数据中学得模型的过程。在这个过程中使用的数据被称为训练数据(Training Data)。
- **测试(Testing)**:使用学习获得的模型进行预测的过程。测试集(Testing Set)用于评估模型在未见过的数据上的性能。
### 假设与泛化
- **假设(Hypothesis)**:学习获得的模型,即关于数据潜在规律的猜测。
- **真相(Ground-Truth)**:真实的潜在规律。
- **泛化能力**:模型对于新样本的适用能力。良好的泛化意味着模型不仅在训练数据上表现良好,在未见过的新数据上也能给出准确的预测。
### 评估方法
- **测试集(Testing Set)**:用于评估学习器泛化能力的数据集。测试集应该尽可能与训练集互斥。
- **留出法(Hold-Out)**:将数据集分为训练集和测试集两部分。
- **交叉验证法(Cross Validation)**:将数据集分成多个子集,轮流将其中一部分作为测试集,其余作为训练集。
- **自助法(Bootstrapping)**:通过对原始数据集进行有放回抽样来创建训练集,并使用剩余样本作为测试集。
### 过拟合与欠拟合
- **过拟合(Overfitting)**:学习器对训练数据的学习过于细致,以至于学习到了训练数据特有的噪声而不是普遍规律,导致模型在新数据上的泛化能力较差。
- **欠拟合(Underfitting)**:学习器未能很好地捕捉到数据的基本规律,导致模型无论是在训练数据还是新数据上都表现不佳。
### 数据分析与预处理
在开始处理数据之前,通常需要先了解数据的基本情况,包括数据的完整性、是否存在噪声等问题。这一步骤通常包括以下内容:
1. **利用描述性数据(元数据)把握数据趋势和识别异常**。
2. **发现噪声、离群点和需要考察的不寻常的值**。
3. **针对具体数据选择合适的预处理技术**。
机器学习是一门涉及多个领域的复杂学科,它结合了统计学、计算机科学等多个领域的知识和技术。通过合理地选择算法、正确地评估模型以及有效地处理数据,可以显著提高机器学习系统的性能。