Concepts141

Groups

Mixed Precision Training

Mixed precision training stores and computes tensors in low precision (FP16/BF16) for speed and memory savings while keeping a master copy of weights in FP32 for accurate updates.

#mixed precision#fp16#bf16+10

⚙️AlgorithmIntermediate

Distributed & Parallel Optimization

Data parallelism splits the training data across workers that compute gradients in parallel on a shared model.

#data parallelism

1 2 3 4 5

Concepts141

Mixed Precision Training

Distributed & Parallel Optimization

Lion Optimizer

Sharpness-Aware Minimization (SAM)

Sparse Matrices & Computation

Dynamic Time Warping

Expectation Maximization (EM)

PPO & Trust Region Methods

Temporal Difference Learning

t-SNE & UMAP

Principal Component Analysis (PCA)

Efficient Attention Mechanisms