监督学习(Supervised Learning)是机器学习中最常见和基础的方法之一,其核心思想是通过带有标注的训练数据(即输入数据与对应的正确输出)来训练模型,使模型能够学习输入到输出的映射关系,从而对未知数据做出预测。
核心概念:
1.标注数据:数据形式为 (X,y),其中:
X:输入特征(例如图像像素、文本词向量等)。
y:标签或目标值(例如分类类别、连续数值等)。
2.目标:学习一个函数f:X→y,使得f(X)能尽可能准确地预测真实标签y。
无监督学习(Unsupervised Learning)是机器学习的一个重要分支,其核心特点是无需人工标注的标签,算法直接从数据中探索潜在的模式、结构或规律。与有监督学习不同,无监督学习的目标是发现数据中隐藏的信息,而非预测已知的输出。
核心概念:从无标签的数据中自动发现隐藏的模式或结构,无需预先定义输出标签。
数据形式:仅 X(无对应标签y)。
关键特点:数据无需标注,算法自主探索数据内在关系(如聚类、降维、关联规则)。
实际应用中的结合:
半监督学习:少量标注数据 + 大量无标签数据(如医学图像分析)。
自监督学习:从数据本身生成标签(如对比学习)。
预处理环节:无监督学习(如PCA降维)常作为监督学习的前置步骤。
当有明确预测目标且标注数据充足时(如人脸识别),选择监督学习;当需要探索数据内在规律或标注成本过高时(如客户细分),选择无监督学习。