Alex_McAvoy

想要成为渔夫的猎手

References:

【概述】

机器学习的模型评估 中,介绍了偏差、方差、噪声、偏差-方差分解以及偏差-方差窘境

阅读全文 »

【指数加权平均】

指数加权平均(Exponentially Weight Average)是一种常用的序列数据处理方式,通常用于序列分析,例如金融序列分析、温度变化序列分析等

其过程如下:

阅读全文 »

【局部最优问题】

在求解最优化问题时,凸优化问题有全局最优解与局部最优解的区别

全局最优是指求一个问题在全值域范围内最优,局部最优是指一个问题的解在一定范围或区域内最优,或者说解决问题或达成目标的手段在一定范围或限制内最优

阅读全文 »

【概述】

由于在训练神经网络期间前一层的参数发生了变化,这导致了每层输入的分布不同,难以通过较低的学习率和参数初始化来减慢训练速度,同时要训练的具有饱和非线性模型也十分困难,这种现象被称为内部协变量偏移(Internal Covariate Shift)

论文 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 中提出了批量归一化(Batch Normalization,BN)这种数据归一化方法来解决该问题

阅读全文 »

【梯度爆炸与梯度消失】

目前优化神经网络的方法基本都是基于反向传播的思想,即根据损失函数计算的误差通过反向传播的方式,逆向对网络权值进行更新

梯度消失和梯度爆炸是最常见的两个问题,它们会影响模型的收敛速度和性能

阅读全文 »

【概述】

反向传播(Error Back Propagation,BP)算法,是迄今为止最成功的神经网络训练算法,其不仅可用于多层前馈神经网络中,还可用于其他神经网络,但通常说到 BP 神经网络时,一般是指用 BP 算法所训练的多层前馈神经网络,此外,在实际应用中,当使用神经网络建模时,大多使用 BP 算法进行训练

BP 算法是一种迭代学习算法,在迭代的每一轮中采用感知机学习算法对参数进行更新,其仍是基于梯度下降法,以目标的负梯度方向对参数进行调整

阅读全文 »

原子操作

CUDA 编程的基本思想利用 GPU 来尽可能地并行执行相同的核函数,对于大多数并行任务,线程间不需要合作或使用其他线程的资源,只需要保证自己能够正常执行即可

但对于某些需要同步执行的操作,例如多个核函数需要对同一个变量进行读取-修改-写入,由于核函数之间是异步的,当试图同时执行时,就会导致出现问题

阅读全文 »

Reference

计算与传输重叠

CPU 与 GPU 间交互时涉及两个引擎:内存复制引擎核函数执行引擎,内存复制引擎负责 CPU 与 GPU 间的数据传输,核函数执行引擎负责 CPU 向 GPU 部署核函数任务

阅读全文 »