深度学习杂记00
- 机器学习流程:
- 数据获取
- 特征工程 --> 手工提取 / 特征学习(深度学习)
- 数据特征决定了模型的上限
- 预处理和特征提取是最核心的
- 算法和参数选择决定了如何逼近这个上限
- 建立模型
- 评估与应用
- 深度学习在数据规模大的任务上效果才好
- 有时使用数据增强来满足数据量问题
- 机器学习常规套路
- 收集数据并给定标签
- 训练一个分类器
- 测试、评估
- 神经网络基础
- 损失函数 = 数据损失+正则化惩罚项(避免过拟合)
- softmax回归:将输出转化成概率
- 反向传播:“图”+链式求导法则
- “图”节点的反向传播直观
- 加法门单元:均分
- MAX门单元:给最大的
- 乘法门单元:“互换”
- “图”节点的反向传播直观
- 神经网络基本架构
- 层次结构
- 神经元
- 全连接
- 非线性(激活函数:Sigmoid, ReLU, Tanh)
- 数据预处理
- 常见标准化
- 原点中心化:减均值
- 放缩:除以标准差
- 网络参数初始化
- 一般使用随机策略初始化
- 常见标准化
- DROP-OUT 舍去部分神经元以避免过拟合
- 卷积神经网络基础
- CNN基础架构
- 输入层
- 卷积层
- 滑动窗口不长
- 卷积核尺寸
- 边缘填充
- 卷积核个数
“激活层”- 池化层
- Normalization 层
- 全连接层
- 卷积参数共享
- 卷积过程时,卷积核内参数不变
- 池化
- 区域内按预设方式保留特征像素(筛选)
- 尽量保留特征的基础上,进一步降低特征图规模
- 经典网络
- AlexNet
- VGG
- ResNet
- CNN基础架构
- 递归神经网络RNN基础
- 考虑前一次/多次的中间结果
- 多用于NLP
- LSTM网络基础
- 加入控制单元,考虑保留/舍弃过程中哪些信息
- NLP Word2Vec 将词转化为向量
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Asphyxia's Blog!
评论
ValineDisqus