alexnet1 [ 논문 리뷰 ] AlexNet AlexNet의 구조에 적용된 특징 1. 활성화 함수 ReLU 논문에서 활성화 함수로 ReLU를 적용했습니다. 저자는 tanh와 ReLU의 학습 속도를 비교했습니다. 그 결과 4층의 CNN으로 CIFAR-10을 학습시켰을 때, ReLU가 tanh보다 6배 빠르다고 합니다. 2. GPU parallelization network를 2개의 GPU로 나누어서 학습시켰습니다. 예를들어, 90 개의 kernel이 있다고 하면 45개를 GPU 1에 할당하고 남은 45개를 GPU 2에 할당하여 학습합니다. 추가적인 기법으로 GPU 두 개로 나누어 학습시키다가 -> 하나의 layer에서만 GPU를 통합시키는 것입니다. 논문에서는 3번째 Conv layer에서만 GPU를 통합시킨다고 말합니다. 이를 통해 계산량의 허용가.. 2022. 7. 31. 이전 1 다음