外观
AI 核心原理
机器学习基础
机器学习的核心原理是通过算法从数据中学习模式,而不是依赖硬编码的指令。其数学基础是统计学习和优化理论,通过最小化损失函数来调整模型参数。
特点:数据驱动、泛化能力、自动优化、可扩展性。
示意图:
训练数据 → [特征工程] → [模型训练] → [模型评估] → 部署预测
提取特征 优化参数 验证性能 应用推理神经网络与深度学习
神经网络的核心原理是模仿生物神经元的连接方式,通过多层非线性变换从数据中学习层次化特征表示。前向传播计算输出,反向传播更新权重。
特点:层次化特征学习、端到端训练、强大的表示能力、计算密集。
示意图:
输入层 → [隐藏层1] → [隐藏层2] → 输出层
↓ ↓ ↓ ↓
线性变换 → 激活函数 → 权重更新 → 损失计算
ReLU/Sigmoid 梯度下降 交叉熵/MSE反向传播算法
反向传播是神经网络训练的核心算法,通过链式法则计算损失函数对每个参数的梯度。包括前向传播计算输出和反向传播更新权重两个阶段。
特点:高效计算梯度、支持深层网络、自动微分、内存消耗大。
示意图:
输入X → 前向传播 → 输出Y → 计算损失L
↓
权重W ← 梯度更新 ← 反向传播 ← 梯度∂L/∂Y
优化器Adam 链式法则卷积神经网络
CNN 专门处理网格状数据 (如图像),通过卷积核在输入数据上滑动提取局部特征,使用池化层降低维度,全连接层进行分类。
特点:参数共享、平移不变性、局部连接、层次特征提取。
示意图:
输入图像 → [卷积层] → [激活函数] → [池化层] → [全连接层] → 分类结果
特征提取 非线性变换 降维 综合特征
3x3卷积核 ReLU 最大池化循环神经网络
RNN 处理序列数据,通过循环连接保留历史信息。LSTM 和 GRU 等变体通过门控机制解决长期依赖问题,适用于时间序列分析。
特点:序列建模、记忆功能、变长输入、梯度问题。
示意图:
时间步t → [RNN单元] → 隐藏状态h_t → 输出y_t
↑ ↓
隐藏状态h_{t-1} 隐藏状态h_{t+1}
记忆过去 影响未来注意力机制
注意力机制让模型在处理输入时能够关注相关部分,通过计算查询、键、值之间的相似度分配权重。Transformer 基于自注意力机制,并行处理序列。
特点:全局依赖、可解释性、并行计算、灵活性强。
示意图:
输入序列 → [查询Q] → 相似度计算 → 权重分配 → 加权求和 → 输出
[键K] Q·K^T Softmax ∑(权重×V)
[值V]生成对抗网络
GAN 包含生成器和判别器两个网络,通过对抗训练共同优化。生成器生成假数据,判别器区分真假,形成最小最大博弈。
特点:高质量生成、无监督学习、训练不稳定、模式崩溃。
示意图:
随机噪声 → [生成器G] → 生成数据 → [判别器D] → 真/假判断
↑ ↓
真实数据 ------------→ 对抗训练 ← 梯度反馈
最小化D损失 最大化G损失强化学习原理
强化学习基于马尔可夫决策过程,智能体通过与环境交互学习最优策略。包括状态、动作、奖励、策略和价值函数等要素。
特点:延迟奖励、探索利用、序列决策、环境交互。
示意图:
状态s_t → [策略π] → 动作a_t → 环境 → 奖励r_{t+1} → 新状态s_{t+1}
↓ ↑
价值函数V(s) ← 贝尔曼方程 ← 时序差分学习
评估状态 V(s)=E[r+γV(s')]自监督学习
自监督学习从无标签数据中自动生成监督信号,通过预定义任务学习表征。常见方法包括掩码语言建模和对比学习。
特点:减少标注依赖、学习通用表征、可迁移性强、数据效率高。
示意图:
无标签数据 → [前置任务] → 伪标签 → [表征学习] → 下游任务
掩码预测 预测目标 特征提取 微调应用
对比学习 相似度判断