Linear regression model
Linear regressions is defined as an algorithm that provides a linear relationhip between an independent variable and a dependent variable to predict the outcome of future events.
๋ชจ๋ธ์ด ์ ํ์ด๋ผ๋ ๊ฒ์ ์ถ์ ํด์ผ ํ ํ๋ผ๋ฏธํฐ์ ๋ํด์ ์ ํ๋ณํ์ ๋ง์กฑ์ํค๋ ๊ฒ์ด๋ค.

- ์ ํ๋ณํ
- ๊ฐ์ฐ์ฑ: X,Y๋ฅผ ๋ถ๋ฆฌํ์ฌ ๊ณ์ฐํ ์ ์์
- ๋์ง์ฑ : a๋ฅผ ์ ๋ฐ์ผ๋ก ๋ถ๋ฆฌํ ์ ์์
- ์ด๋ ์ฆ, ๊ฐ์ฐ์ฑ๊ณผ ๋์ง์ฑ์ ๋ง์กฑํ๋ ๊ฒฝ์ฐ ์ ํ๋ณํ, ์ ํ๋ณํ์ ๋ง์กฑํ๋ค ๋ผ๊ณ ํ๋ค.
- ์ค๋ณ์ ๋ฒกํฐ๊ณต๊ฐ์์ ๋ฒกํฐX, Y์ ์ค์นผ๋ผ a์ ๋ํด์ ๋ค์์ ๋ง์กฑํ๋ ํจ์ T๋ฅผ ์ ํ๋ณํ์ด๋ผ๊ณ ํ๋ค.
Notations

์ฐ๋ฆฌ๋ parameter vector beta๋ฅผ ์กฐ์ ํ์ฌ f(X) ๊ฐ์ ์ค์ ๋ชฉํ์ธ Y์ ๊ทผ์ฌํ๋๋ก ๋ง๋ค์ด์ผ ํ๋ค. ๊ทธ๋ ๋ค๋ฉด ์ฐ๋ฆฌ๊ฐ ํด์ผํ๋ ๊ฒ์ ๋ค์๊ณผ ๊ฐ๋ค
- ๋ชจ๋ธ์ด ์ค์ ๊ฐ๊ณผ ์ผ๋ง๋ ์ผ์นํ๋์ง ์์์ผ ํ๋ค.โ Cost fuction
- parameter๋ฅผ ์ด๋ป๊ฒ ์กฐ์ ํ์ฌ์ ๋ชฉํ๊ฐ์ ๊ทผ์ฌ์ํฌ ๊ฒ์ธ์ง ์ ํด์ผ ํ๋ค.โ Gradient descent algorithm, Normal equation
Cost function
quantifies our unhappiness with the scores across the training data.
๋ชจ๋ธ์ด ์ฐ์ถํ ๊ฒฐ๊ณผ๋ฅผ ์ค์ ๊ฐ๊ณผ ๋น๊ตํ์ฌ ๋ ๊ฐ์ด ์ผ๋ง๋ ์ผ์นํ๋์ง cost fuction์ ํตํด ์์นํ ํ ์ ์๋ค.
Cost๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ์(function)์ ๋ค์ํ๊ฒ ์กด์ฌํ์ง๋ง, ๋ชจ๋ธ์ด ์ด๋ค ๋ชจ๋ธ์ด๋์ ๋ฐ๋ผ์ ํฌ๊ฒ 2๊ฐ์ง ์ข ๋ฅ๋ก ๊ตฌ๋ถํด๋ณผ ์ ์๋ค.
๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋กregression model๊ณผ classification๋ชจ๋ธ๋ก ๋๋ ์ ์์ผ๋ฏ๋ก, ๊ฐ ๋ชจ๋ธ์์ ์ฐ์ด๋ cost fuction์ผ๋ก ๊ตฌ๋ถํ๋ ๊ฒ์ด๋ค. ์ด๋ฒ ํฌ์คํ ์์๋ regression model ์ ๋ํด์ ๊ณต๋ถํ๋ฏ๋ก, classification model ์ ์ฌ์ฉ๋๋ ์ค์ฐจ๋ ๋ค๋ฅธ ํ์ด์ง์์ ์์๋ณธ๋ค.
Regression model
regression model์์ ์ฌ์ฉ๋๋ cost function์ ๋ํ์ ์ผ๋ก MAE, MSE, RMSE, LSE ๋ฑ์ด ์๋ค.

Gradient Descent Algorithms
์์ regresion model์ ๋ํ cost function์ค ์ต์์ ๊ณฑ ์ค์ฐจ๋ฅผ ์ด์ฉํด gradient descent์ ๋ํด์ ์์๋ณด์.

์ฐ๋ฆฌ๋ ์์ ์ค์ฐจ๋ฅผ ํตํด์ ๋ชจ๋ธ๊ณผ ์ค์ ๋ฐ์ดํฐ ๊ฐ์ ์ฐจ์ด๊ฐ ์ผ๋ง๋ ๋๋์ง ์์นํ ํ๋ค. ๋น์ฐํ๊ฒ๋, ๋ง์ฝ ์ด ๋ชจ๋ธ์ด ์ค์ ๊ฐ๊ณผ ์์ฃผ ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ ์ต์ ์ํ์ ๋ชจ๋ธ์ด๋ผ๋ฉด, ์ค์ฐจ๊ฐ์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๋ณด๋ค ๊ฐ์ฅ ์์ ์ต์๊ฐ์ ๊ฐ์ง ๊ฒ์ด๋ค.
์ฆ, ์ฐ๋ฆฌ๊ฐ ์์นํ ํ ์ค์ฐจ๋ฅผ ์ต์ํ ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ $\beta$๋ฅผ ์กฐ์ ํด์ผ ํ๋ค.
Gradient Descent
Gradient descent๋ ์ต์ ํ(optimization)์๊ณ ๋ฆฌ์ฆ ์ค ํ๋๋ก, ์ฃผ๋ก ๋จธ์ ๋ฌ๋์์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๊ณ cost fuction์ ์ต์ํํ๋๋ฐ์ ํ์ฉํ๋ค.
Algorithm
Gradient Descent์ ์๊ณ ๋ฆฌ์ฆ์ ๋ค์๊ณผ ๊ฐ๋ค.

์ฐ๋ฆฌ๋ LSE๋ฅผ ๋ค์ด ์ดํดํด๋ณด๊ธฐ๋ก ํ์ผ๋ฏ๋ก, update parameter๋ถ๋ถ์ ์ด๋ ๊ฒ ๋ฐ๊ฟ ์ ์์ ๊ฒ์ด๋ค.

Batch Gradient Descent
Look at every samples in the training set for each iteration and update the parameters
๋ง์ฝ m๊ฐ์ training set์ด ์๋ค๊ณ ํ์. ์ด ๋ฐ์ดํฐ๋ค์ ์ด๋ป๊ฒ ์ฌ์ฉํ๋๋์ ๋ฐ๋ผ์ Gradient descent ์๊ณ ๋ฆฌ์ฆ์ ๋ช๊ฐ์ง ๋ณํ์ ์ค ์ ์๋ค.
๊ฐ์ฅ ์ฝ๊ฒ ์๊ฐํ ์ ์๋ ๋ฐฉ์์ ๊ฐ์ง๊ณ ์๋ ๋ชจ๋ ๋ฐ์ดํฐ ์ ์ ์ฌ์ฉํ์ฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ด๋ค.

์ฆ, feature j์ ๋ํด์ ์ ๋ฐ์ดํธ๋ฅผ ํ๋ฒ ํ ๋ j์ ๋ํ ๋ชจ๋ gradient descent์ ํฉ์ ์ด์ฉํ๋ ๊ฒ์ด๋ค.
- ์ฅ์ : updateํ์๋ฅผ ์ค์ด๊ณ optimizationํ ์ ์๋ค.
- ๋จ์ : resource intensive. ์์์ ์๋ชจ๊ฐ ๋ง๋ค๋ ๊ฒ์ ๋ฉ๋ชจ๋ฆฌ์ ์ฌ์ฉ๋์ด ๋ง์ ์ ์๊ณ , ๊ณ์ฐ ์๋๊ฐ ๋๋ฆฌ๋ค๋ ๊ฒ์ด๋ค.
Stochastic Gradient Descent
Look at single sample in the training set for each iteration and update the parameters
์์ ๊ฐ์ด m๊ฐ์ ๋ฐ์ดํฐ ์ ์ ์ด์ฉํด์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋ค๊ณ ํ์. ์ด๋ฒ์๋ ํ๋ฒ ์ ๋ฐ์ดํธ ๋ ๋ง๋ค ๋จ ํ๋์ data set์ ์ด์ฉํด์ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ ์ ์๋ค.

- ์ฅ์ : faster convergence
- ๋จ์ : harder to resch global optimal
Normal Equations
linear model์ ํ ์ global optima๊ฐ ์กด์ฌํ๋ฏ๋ก, normal equation์ ์ฌ์ฉํด ํ๋ฒ์ parameter๋ฅผ ๊ตฌํ๋ ๊ฒ์ด ๋งค์ฐ ํจ๊ณผ์ ์ด๋ค. ์ฆ, ๊ตณ์ด GD๋ฅผ ์ฌ์ฉํ์ฌ parameter๋ฅผ ๊ตฌํ์ง ์๊ณ , ๋ฏธ๋ถ๊ฐ์ด 0์ด ๋๋ ๋ถ๋ถ์ parameter๋ฅผ ๊ตฌํ๋ ๊ฒ.


'๐ฆAI > ML' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Neural Networks (Part1) (1) | 2023.11.30 |
---|---|
[Machine Learning] Decision Trees (0) | 2023.10.18 |
[ML] Generative learning algorithm (0) | 2023.10.08 |
[ML] Gaussian Discriminant Analysis (0) | 2023.09.23 |
Loss Function: Hinge Loss (0) | 2023.08.05 |