
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
ยท
๐ฆAI/Paper
Background๋
ผ๋ฌธ์ ์ฝ๊ธฐ ์ ์ ํ๋ฒ ๋์ง์ด๋ณด๊ธฐGradient DescentBatch Gradient Descent์ผ๋ฐ์ ์ผ๋ก ๊ทธ๋ฅ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ด๋ผ ํ๋ฉด ์ด๊ฑธ ๋ ์ฌ๋ฆฐ๋ค.iterationํ๋ฒ์ ์ ์ฒด training dataset์ ์ฌ์ฉํ์ฌ์ gradient๋ฅผ ๊ณ์ฐํ๋ค.์ธํ : ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ํ: learning rateN: training dataset ํฌ๊ธฐl : loss func์ด๋ฆ์ batch๊ฐ ๋ค์ด๊ฐ์ ์ด์ง ํผ๋๋ ์ ์๋๋ฐ, ๊ทธ๋ฅ batch๋ฅผ total trainig dataset์ผ๋ก ์๊ฐํ๋ฉด ๋๋ค.์ ์ฒด dataset์ ์ฐ๊ธฐ ๋๋ฌธ์ convergence๊ฐ ์์ ์ ์ด๋ผ๋ ์ฅ์ ์ด ์๋ค. ๋ค๋ง ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ง์ด ์ฐ๊ณ , lacal optima๋ก ์๋ ด๋๋ ๊ฒฝ์ฐ์ ๋น ์ ธ๋์ค๊ธฐ ์ด๋ ต๋ค.Stochastic Gradien..