본문 바로가기
AI/논문

[ 논문 리뷰 ] Unsupervised Visual Representation Learning by Context Prediction

by jennyf 2022. 7. 31.

이번 논문은 Unsupervised Visual Representation Learning by Context Prediction 입니다.

 

Context Prediction은 self-supervised learning 이며, image로부터 patch를 추출하여 patch간의 상대적인 위치를 예측하도록 학습합니다. 실제로 이 상대적인 위치를 예측하는 task에 대하여 학습된 ConvNet은 낮은 성능을 나타냅니다. 

 

이 방법으로 embedding을 학습하는데, 이 embedding은 동일한 object이면 가까운 거리, 다른 object인 경우에는 먼 거리를 갖도록 합니다. 이렇게 학습된 ConvNet은 transfer learning을 통하여 랜덤 초기화된 ConvNet보다 상당한 성능향상을 제공합니다. 

 

Context Prediction

 

아래 그림에서 8개의 공간 배열에서 무작위로 한 쌍의 patches를 추출합니다.

한 쌍의 patches를 추출하는 방법은, 1) 하나의 patch를 먼저 추출하고 2) 이 patch에 8 개의 위치 중 무작위로 patch를 추출합니다.

그리고 이 쌍을 CNN에 입력합니다.

 

입력은 두 patch와 첫 번째 patch에 대한 두 번째 patch의 상대적인 위치를 label로 입력합니다.

그리고 이미지 내에서 patch간의 위치에 대한 정보를 제공하지 않고 신경망이 patch의 상대적인 위치를 예측하도록 합니다. 

 

 

두 개의 patch를 입력받기 위해 ConvNet을 다음과 같이 설계합니다.

 

두 개의 Conv는 각 patch에 대한 representation을 weight sharing으로 학습하고, fc7에서 representation이 fuse됩니다.

이렇게 모델을 구성한 이유는 두 개의 patch를 입력 받기 위해 두 layer가 필요하기 때문이라고 합니다.

 

 

 

reference