Background논문을 읽기 전에 한번 되짚어보기Gradient DescentBatch Gradient Descent일반적으로 그냥 경사하강법이라 하면 이걸 떠올린다.iteration한번에 전체 training dataset을 사용하여서 gradient를 계산한다.세타 : 모델 파라미터알파: learning rateN: training dataset 크기l : loss func이름에 batch가 들어가서 살짝 혼동될 수 있는데, 그냥 batch를 total trainig dataset으로 생각하면 된다.전체 dataset을 쓰기 때문에 convergence가 안정적이라는 장점이 있다. 다만 메모리를 많이 쓰고, lacal optima로 수렴되는 경우에 빠져나오기 어렵다.Stochastic Gradien..
Paper
CNNCNN은 conv layer와 pooling layer를 번갈아 배치하는 구조로 형성되어있다. 이를 통해서 입력되는 이미지의 특징을 추출하고 , 이후에 FC layer를 통해서 분류작업을 수행한다.하지만 이런 CNN 에는 몇가지 한계가 있다.비선형성의 제한Convolution filter를 사용하므로 입력 데이터에 대해서 로컬한 선형 연산을 수행하게 된다. 따라서 이 부분에서는 비선형성이 떨어진다는 문제가 있다. 즉, 이로 인해서 복자한 데이터에 대한 패턴을 캡쳐하는것에 한계가 있다.완전 연결 레이어 오버피팅FC layer는 많은 파라미터가 필요한 layer이다. 따라서 이를 통해서 오버피팅이 발생하게 된다는 한계가 있다.공간적 정보의 손실또한 FC layer에서 vector형태는 이미지의 공간적인..
참조1. Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014).https://arxiv.org/abs/1409.15562. Stanford University Spring 2024 CS231n: Deep Learning for Computer Vision https://cs231n.stanford.edu/schedule.html3. 이화여자대학교 2023-1 Open Software Project(민동보 교수님), lec13-14 CNN, CNN architecture