1. Problems with deeper layers
1.1 Going deeper with convolutions
네트워크가 깊어질수록 더 큰 receptive fields를 가지고 더 많은 capacity 와 Non-linearity를 가지게 된다.
때문에 성능이 증가하게 되는 결과가 나온다.
하지만 항상 그럴까?
1.2 Hard to optimize
- 더 깊게 쌓을 수록 Gradient vanishing, exploding 문제에 직면하게 된다.
- 계산복잡도가 매우 증가하게 된다.
- Overfitting problem이 아닌 Degradation problem이 발생하게 된다.

2. CNN architectures for image classification
2.1 GoogLeNet

Inception Module
하나의 레이어에서 여러개의 filter를 사용하여 여러 측면으로 activation을 관찰하고자 하였다.
- depth가 아니라 width로 확장을 진행하였다.
- 이렇게 여러개의 filter를 concat해준 후 다음 블럭으로 넘겨주게 된다.
- 여기서 계산복잡도가 매우 높아지기 때문에 1x1 convolution을 이용하게 된다.

1x1 convolutions
공간수는 변하지 않고 채널수를 변경시켜주게 된다.

Overall architecture
- Stem network: vanilla convolution networks
- Stacked inception modules
- Auxiliary classifiers
- Gradient Vanishing 문제를 막기위해 중간중간 로스를 계산해서 꼽아준다.
- Classifier output ( a single FC layer )

Auxiliary classifier
- 밑단까지 gradient가 잘 전달되도록 하기 위해 사용한다.
- 이 구조는 학습시에만 사용하고, 추론할때는 사용하지 않는다.
2.2 ResNet
Degradation problem
네트워크를 더 깊게 쌓기 어려운 이유는 overfitting이 아니라 degrade rapidly 때문이다.
이는 최적화가 잘 되어있지 않기 때문이다.

Hypothesis
자기 자신을 유지하려고 노력하지 않아도 된다. ( 직접적으로 자신의 값을 넣어줌 )
나머지에 대해서만 학습을 하도록 한다.


A solution: Shortcut connection
identity를 타고 backpropagation을 하게 되면 직접적으로 내려가기 때문에 gradient vanishing문제를 피할 수 있게 된다.
Analysis of residual connection
path의 경우의 수가 2^n으로 다양해진다. -> 굉장히 복잡한 맵핑을 학습할 수 있게 된다.

Overall architecture

2.3 Beyond ResNets
DenseNet
Chanel 축으로 concatenation을 진행한다. 또한 직전의 정보 뿐 아니라 훨씬 이전의 정보도 같이 넘겨주게 된다.
- 상위 레이어에서도 하위 레이어의 특징을 잘 참조할 수 있도록 하였다.
- add 대신에 concat을 사용했기 때문에 정보는 더 잘 보존되지만, 메모리 사용량은 증가 하였다.


SENet
현재 주어진 activation간의 관계가 더 명확해질 수 있도록 채널간의 관계를 모델링하고 중요도를 파악해서 re-weighting한 후에 중요한 특징을 attention 할 수 있도록 한다.
- Squeeze: global average pooling을 통해서 각 채널의 공간정보를 없애고 분포를 구한다.
- Excitation: FC layer를 통해서 채널간의 연관성을 구하려고 한다. -> attention score 계산
- 이렇게 구한 score를 통해 중요도를 판별하고 gate를 줄여주거나 높여준다.

EfficientNet
Building deep, wide, and high resolution networks in an efficient way

Deformable convolution

'Deeplearning > Computer Vision' 카테고리의 다른 글
| Computer Vision 9. Multi-modal (0) | 2022.10.21 |
|---|---|
| Computer Vision 8. Conditional Generative Model (0) | 2022.10.20 |
| Computer Vision 7. Instance Panoptic Segmentation (0) | 2022.10.19 |
| Computer Vision 6. AutoGrad (0) | 2022.10.19 |