[UDL 스터디 노트] 14장 - Unsupervised learning

Use Original Cover Image

Type

Post

Parent

『 Understanding Deep Learning 』 스터디 노트

Children

Language

개요

해당 포스팅 시리즈는 “Unerstanding Deep Learning” 책을 학습하는 과정을 기록하는 스터디 노트이다.

이번에는 14장, Unsupervised learning에 대해 다룬다.

Understanding Deep Learning

https://udlbook.github.io/udlbook/

이번 장은 Unsupervised learning에 대한 개괄적인 내용만 담아서 길이가 매우 짧다. 앞으로 15장, 16장, 17장, 18장에 걸쳐 각각 GAN, Normalizing flows, VAE, Diffusion을 다룰 예정이다. 모든 Unsupervised learning은 정답 y label 없이 입력 데이터로만 학습을 하는 것이 공통점이지만 세부적으로 어떻게 학습을 하는지가 다르다.

Inception Score

과 의 의미

나머지는 1장에서 이미 대략적으로 다루어서 크게 어려운 점이 없었다. 하지만 Inception Score 부분에서 이해가 안 가는 것이 있었다. IS는 image generative model이 만들어낸 image가 ImageNet database의 이미지에 대해서

1) 얼마나 각 class로 잘 분별이 되는지

2) 모든 class에 대해서 균일하게 생성할 수 있는지

를 평가하는 성능 측정 지표라고 할 수 있다.

구체적으로는 아래 수식으로 정의할 수 있다.

이때 는 아래와 같다. 는 생성된 example의 수이다.

또한 는 생성된 각 이미지이다.

여기서 처음으로 잘 이해가 안 갔던 것은 과 각각이 정확히 무엇을 의미하는지였다.

이렇게 Figure 14.4가 있기는 했는데 헷갈렸던 것이 어떤 확률 값을 나타내는건지 아니면 확률 분포를 나타내는 것인지 헷갈렸다. 사실 이미 5장에서 확률 분포로 접근한다고 배웠지만 그래도 조금 헷갈린 점이 있었다.

하지만 알고 보면 매우 간단하다.

예를 들어 가 Figure 14.4의 첫 번째 그림처럼 비행기 이미지라고 해보자. 그때 는 비행기가 주어졌을 때 각 class들에 대한 확률이 담긴 확률 분포이다. 그래서 = 0.9와 같이 실제 확률 값이 될 수 있다.

그리고 은 를 모든 생성된 example에 대해 평균을 한 값이기 때문에 확률 분포에서 각 class가 다른 class에 비해 상대적으로 얼마나 나왔는지라고 할 수 있다.

왜 KL-divergence를 쓰는가?

다시 수식으로 돌아와서

과 가 무엇인지를 알겠는데 왜 Kullback-Leibler divergence를 쓰는지 이해가 안 갔다. 개념적으로는 KLD가 두 확률 분포 사이의 distance를 계산한다는 것 정도만 알고 있었다. 그런데 이 관점에서 본다면 각 확률분포가 나타내는 의미가 상당히 다른데 이 사이의 거리가 무엇을 의미하는 건지 짐작이 안 갔다. 책에서는 이 공식에 따르면 각 이미지가 각 1000개의 class에 해당할 확률이 높고 각 생성된 이미지가 균등하게 나올 수록 IS가 높아진다고 하는데 왜 그런지 이해가 안 갔다. 결국 위 식에 따르면 Sample quality와 Coverage 모두가 높아야 점수가 높게 나온다고 하는데 왜 그런지 이해가 안 갔다.

이를 이해하려면 확률 분포 사이의 거리라는 단순한 개념적으로 접근하는게 아니라 KLD의 원리를 자세히 뜯어봐야했다.

KLD는 위와 같이 생겼다. 여기서 와 자리에 각각 과 를 대입하면 아래처럼 된다.

이 어떻게 해야 커질지 보면 이 클 수록, 이 작을 수록 커짐을 알 수 있다. 그렇기 때문에 모든 class에 대해 균등하면서도 각 class에 대한 확률은 높게 나오도록 유도하는 것이다.

Reference

[1] Prince, S. J. D. (2023). Understanding Deep Learning. The MIT Press. Retrieved from http://udlbook.com