A Gentle Introduction to Mini-Batch Gradient Descent and How to Configure Batch Size - Machine Learning Mastery
Batch, Mini Batch & Stochastic Gradient Descent
Stochastic Gradient Descent
SGD,online machine learning algorithm.
- 每筆 data 都更新 Gradient
- 很難達到 Local mimima
- 不能平行運算,一次只能看一筆
Batch Gradience Descent
- 全部Dataset看完Gradient之後,每個 Epoch 更新一次參數
- 如果資料量很大,要很久才能更新一次
- 可以平行化,同時間可以跑更多資料
Mini-Batch Gradience Descent
集上面兩種的好處,選定一定Size的 Mini-Batch,在每個 mini-batch 時更新。
- 看一定數量的資料才更新
- Loss 比較不會瘋狂抖動,但也不會卡住
- 可以平行算
- 但是要設多大,只能憑經驗和感覺
Batch, Mini Batch & Stochastic Gradient Descent