梯度下降法的优化算法

反向传播（Error Back Propagation，BP）算法，是迄今为止最成功的神经网络训练算法，其不仅可用于多层前馈神经网络中，还可用于其他神经网络，但通常说到 BP 神经网络时，一般是指用 BP 算法所训练的多层前馈神经网络，此外，在实际应用中，当使用神经网络建模时，大多使用 BP 算法进行训练

BP 算法是一种迭代学习算法，在迭代的每一轮中采用感知机学习算法对参数进行更新，其仍是基于梯度下降法，以目标的负梯度方向对参数进行调整

阅读全文 »

NVIDIA CUDA2023春训营（九）CUDA 原子操作

发表于 2023-02-07 分类于 NVIDIA ， CUDA春训营
本文字数： 2k 阅读时长 ≈ 2 分钟

原子操作

CUDA 编程的基本思想利用 GPU 来尽可能地并行执行相同的核函数，对于大多数并行任务，线程间不需要合作或使用其他线程的资源，只需要保证自己能够正常执行即可

但对于某些需要同步执行的操作，例如多个核函数需要对同一个变量进行读取-修改-写入，由于核函数之间是异步的，当试图同时执行时，就会导致出现问题

阅读全文 »

NVIDIA CUDA2023春训营（八）CUDA 事件

发表于 2023-02-07 分类于 NVIDIA ， CUDA春训营
本文字数： 2.5k 阅读时长 ≈ 2 分钟

Reference

【CUDA 基础】6.1 流和事件概述

CUDA 事件

CUDA 事件（CUDA Event）是 CUDA 流中应用程序跟踪进度的一个方式，其本质是流执行过程中的一个标记，可以检查正在执行的流的操作是否到达该点

阅读全文 »

NVIDIA CUDA2023春训营（七）CUDA 流

发表于 2023-02-07 分类于 NVIDIA ， CUDA春训营
本文字数： 4.8k 阅读时长 ≈ 4 分钟

Reference

【CUDA 基础】6.1 流和事件概述

CUDA —— Stream and Event

CUDA 7 Stream流简化并发性

2.7.CUDA流

CUDA 官方文档

计算与传输重叠

CPU 与 GPU 间交互时涉及两个引擎：内存复制引擎和核函数执行引擎，内存复制引擎负责 CPU 与 GPU 间的数据传输，核函数执行引擎负责 CPU 向 GPU 部署核函数任务

阅读全文 »

NVIDIA CUDA2023春训营（六）CUDA 错误检测

发表于 2023-02-07 分类于 NVIDIA ， CUDA春训营
本文字数： 1.4k 阅读时长 ≈ 1 分钟

Reference

CUDA 官方文档

cudaGetErrorName和cudaGetErrorString的区别

【CUDA教程】四、异常处理与编程技巧

cudaGetErrorString与cudaGetLastError组合运用

错误类型

CUDA 的 Runtime API 都带有 cudaError_t 类型的返回值，其是一个封装了各错误码的枚举类，常见的取值如下：

阅读全文 »

NVIDIA CUDA2023春训营（五）CUDA 向量加法与矩阵乘法

发表于 2023-02-07 分类于 NVIDIA ， CUDA春训营
本文字数： 12k 阅读时长 ≈ 11 分钟

1D Grid, 1D Block 向量加法

普通实现

#include <stdio.h>
#include <math.h>
#define N 100
const double EPS = 1E-6;

void __global__ add(const double *x, const double *y, double *z, int n) {
    // 获取全局索引
    const int index = blockDim.x * blockIdx.x + threadIdx.x;
    
    // 步长
    int stride = blockDim.x * gridDim.x;
    for (int i = index; i < n; i += stride) {
        z[i] = x[i] + y[i];
    }
}

// 误差检测
void check(const double *z, const int n) {
    bool error = false;
    double maxError = 0;
    
    for (int i = 0; i < n; i++) {
        maxError = fmax(maxError, fabs(z[i]-70));
        if (fabs(z[i] - 70) > EPS) {
            error = true;
        }
    }
    
    printf("%s\n", error ? "Errors" : "Pass");
    printf("最大误差: %lf\n", maxError);
}

int main() {
    const int arraySize = sizeof(double) * N;

    // 申请host锁定内存
    double *h_x, *h_y, *h_z;
    cudaMallocHost(&h_x, arraySize);
    cudaMallocHost(&h_y, arraySize);
    cudaMallocHost(&h_z, arraySize);

    // 初始化数据
    for (int i = 0; i < N; i++) {
        h_x[i] = 50;
        h_y[i] = 20;
    }

    // 申请device显存
    double *d_x, *d_y, *d_z;
    cudaMalloc((void **)&d_x, arraySize);
    cudaMalloc((void **)&d_y, arraySize);
    cudaMalloc((void **)&d_z, arraySize);
    
    // host数据传输到device
    cudaMemcpy(d_x, h_x, arraySize, cudaMemcpyHostToDevice);
    cudaMemcpy(d_y, h_y, arraySize, cudaMemcpyHostToDevice);

    // 核函数执行配置
    dim3 blockSize(128);
    dim3 gridSize((N + blockSize.x - 1) / blockSize.x);
    
    // 执行核函数
    add<<<gridSize, blockSize>>>(d_x, d_y, d_z, N);

    // 将device得到的结果传输到host
    cudaMemcpy(h_z, d_z, arraySize, cudaMemcpyDeviceToHost);
    
    // 检查执行结果
    check(h_z, N);

    // 释放host锁定内存
    cudaFreeHost(h_x);
    cudaFreeHost(h_y);
    cudaFreeHost(h_z);
    
    // 释放device显存
    cudaFree(d_x);
    cudaFree(d_y);
    cudaFree(d_z);
    
    return 0;
}

阅读全文 »