본문 바로가기

Paper

[논문]Faster R-CNN

r-cnn 계열의 아키텍쳐에서

기존의 RP가 SS통해서 이뤄진 것이 너무 느렸다. SS는 GPU를 사용할 수 없기 때문!

fater에서는

RPN을 통해 RP을 network로 만들어 한 구조안에서 해결할 수 있게 함 > 속도 향상, 효율적

 

 

 

 

RPN 이랑 Fast R-cnn 합쳐서 Conv feature를 공유하게함. 즉 두가지를 다 학습시켜 나중에 합친다.

 

FCN(fully conv network) = 1x1 conv

FC대신 사용 > 위치정보를 보존

 

 

 

image를 ALEXNET을 통과시켜 피처맵 생성 

이 피처맵을 RPN을 통과시킴

RPN은 피처맵에서 각 슬라이드 윈도우 당 중점을 기준으로 k개의 anchor boxes를 쳐서 각 anchor box의 좌표와 스코어를 vgg net 과 1x1 conv net을 통과시켜 cls layer와 reg layer로 보내 2k개의 scores(object인지 아닌지)와 4k개의 coordinates(x,y,w,h)값을 출력한다.

 

RPN 학습을 통해 뽑힌 ROI들을 ROI pooling을 통해 차원을 맞춰준다.

 

 

 

학습과정

1. pretrain 된 ALEXNET(M0)으로 RPN을 학습시켜 P1(ROI)을 뽑는다. M0도 fine tuning 되어 M1이 된다

2. M0와 P1을 모델 전체에 넣고 학습 시켜 M2를 얻는다

3. M2 모델을 CNN layer는 얼리고 학습시켜 M3를 얻는다

4. M3로 P2(ROI)를 뽑는다

5. M3와 P2로 CNN layer는 얼리고 학습시켜 M4를 얻는다

6. M4에 M3의 RPN layer를 추가시켜 최종 모델을 얻는다