大连职业技术学院 - 现代教育技术中心

监督学习（Supervised Learning）是机器学习中最常见和基础的方法之一，其核心思想是通过带有标注的训练数据（即输入数据与对应的正确输出）来训练模型，使模型能够学习输入到输出的映射关系，从而对未知数据做出预测。

核心概念：

1．标注数据：数据形式为 (X,y)，其中：

X：输入特征（例如图像像素、文本词向量等）。

y：标签或目标值（例如分类类别、连续数值等）。

2.目标：学习一个函数f：X→y，使得f(X)能尽可能准确地预测真实标签y。

无监督学习（Unsupervised Learning）是机器学习的一个重要分支，其核心特点是无需人工标注的标签，算法直接从数据中探索潜在的模式、结构或规律。与有监督学习不同，无监督学习的目标是发现数据中隐藏的信息，而非预测已知的输出。

核心概念：从无标签的数据中自动发现隐藏的模式或结构，无需预先定义输出标签。

数据形式：仅 X（无对应标签y）。

关键特点：数据无需标注，算法自主探索数据内在关系（如聚类、降维、关联规则）。

实际应用中的结合：

半监督学习：少量标注数据 + 大量无标签数据（如医学图像分析）。

自监督学习：从数据本身生成标签（如对比学习）。

预处理环节：无监督学习（如PCA降维）常作为监督学习的前置步骤。

当有明确预测目标且标注数据充足时（如人脸识别），选择监督学习；当需要探索数据内在规律或标注成本过高时（如客户细分），选择无监督学习。