卷积神经网络是一种专为处理网格状数据(如图像、视频、音频、时间序列)而设计的深度学习模型。其核心思想是通过局部感受野、权重共享和层次化特征提取,高效捕捉数据中的空间或时序模式。CNN 是计算机视觉领域的基石,并在其他领域(如自然语言处理、医学影像分析)广泛应用。
核心思想:
1. 局部感受野
传统神经网络:每个神经元与前一层的所有神经元连接(全连接),参数量大且忽略局部结构。
CNN 的改进:每个神经元仅连接输入数据的局部区域(如 3×3 的像素块),聚焦局部特征(如边缘、纹理)。
2.权重共享
卷积核(Filter):用一个小的滑动窗口(如 3×3 的矩阵)扫描整个输入,同一卷积核在不同位置共享参数。
优点:大幅减少参数量,增强平移不变性(无论特征出现在图像的哪个位置,都能检测到)。
3.层次化特征提取
浅层:检测低级特征(边缘、颜色)。
中层:组合低级特征形成局部结构(如几何形状)。
深层:识别高级语义特征(如物体部件、整体类别)。
核心组件:
1.卷积层(Convolutional Layer)
功能:通过卷积核提取局部特征。
操作:滑动窗口计算输入与卷积核的点积,生成特征图(Feature Map)。
2. 激活层(Activation Layer)
功能:引入非线性,增强模型表达能力。
常用激活函数:ReLU(Rectified Linear Unit)、LeakyReLU、Swish。
3.池化层(Pooling Layer)
功能:降维、减少计算量,增强平移鲁棒性。
类型:最大池化和平均池化。
4.全连接层(Fully Connected Layer)
功能:将高层特征映射到最终输出(如分类概率)。
位置:通常位于网络末端(在卷积层和池化层之后)。
5.其他组件
批量归一化(Batch Normalization):加速训练,缓解梯度消失。
Dropout:随机丢弃部分神经元,防止过拟合。