[ 논문 리뷰 ] Colorful Image Colorization
이번 논문은 Colorful Image Colorization 입니다.
Colorization은 grayscale image를 color image로 변형시키는 것입니다.
이전에는 사람이 직접 grayscale image를 보고 object에 해당하는 Color를 판단하여 colorization을 수행했습니다.
이 논문에서 제안하는 것은 사람이 아닌 CNN Network를 통해 완전히 자동적으로 image에 맞는 선명하고 실제적인 colorization을 제안하였습니다.
Prior Colorization
이전의 colorization은 grayscale과 color의 상관관계를 modeling 하여 colorization을 수행하였으며, 크게 Non-parameter와 Parameter method가 있습니다.
Non-parameter method는 input 되는 grayscale image와 관련된 image를 사람이 참고해서 colorization을 수행하거나, 학습되는 많은 양의 color image로부터 예측 함수를 활용하여 학습했습니다.
Parameter method는 color space의 regression loss function이나 color value의 classification loss function을 사용했습니다.
논문에서 제안하는 방법 또한 color classification을 수행하지만, 이전의 방법보다 더 큰 model, 더 많은 data, 혁신적인 loss function과 mapping을 사용했습니다.
해당 논문은 grayscale image를 입력받아 colorization을 합니다.
lightness channel L이 주어지면, 모델은 그에 해당하는 color channels인 a와 b를 예측합니다.
색상은 CIE Lab colorspace를 사용합니다.
저자의 목적은 ground-truth와 동일한 colorization이 아니라, 사람을 속일 수 있는 colorization 입니다.
저자는 colorization이 multimodal task라고 말합니다.
많은 객체들은 하나의 색상을 갖고있는 것이 아니라, 여러 색상이 될 수 있습니다.
이 multimodal 문제를 풀기 위해, rare color에 높은 가중치를 가하도록 loss function을 수정하고, 새로운 CNN 구조를 제언합니다.
또한 최종 colorization은 분포의 annealed mean을 취하여 계산합니다.
이렇게 colorization을 위해 특징을 학습한 CNN은 downstream task로 transfer 되어 classification, detection에서 좋은 성능을 보여줍니다.
ImageNet dataset으로 학습된 CNN 보다는 낮은 성능을 갖습니다. 이는 colorization에서 데이터는 labeling이 필요 없으므로 self-supervised learning이 가능하다는 것이 의미가 있습니다.
다음은 모델 구조입니다.
Approach
모델은 Color ab를 예측하고, 마지막에 lightness channel L을 더하여 colorization을 합니다.
1. Objective Function
2. Class rebalancing
ab 값의 분포는 낮은 ab값에 편향되어 있습니다. (구름, 도로, 먼지, 벽 같은 배경의 존재 때문에)
아래 그림은 ImageNet training image에 대해 ab공간에서 pixel의 분포를 보여줍니다.
그림을 보면 saturated value보다 desaturated value값에 많은 pixel이 존재합니다.
이 지배적인 desaturated ab values를 다루기 위해 loss function에서 weight를 가합니다.
즉, class-imbalance 문제를 각 pixel의 reweighting loss로 해결하려 합니다.
w는 가중치 입니다.
각 pixel은 w에 의해 가중치를 받습니다.
λ는 1/2, σ는 5를 사용합니다.
3. Class Probabilities to Point Estimates
결과 확률을 출력하기 위햐여 Knowledge distillation의 annealed-mean을 사용합니다.
T값에 따라 출력값이 softer해지는데, 이 방법이 colorization에서 발생하는 multimodal 문제를 잘 다루고 ab 색상을 잘 나타냅니다.