[UDL 스터디 노트] 13장 - Graph neural networks

Use Original Cover Image

Type

Post

Parent

『 Understanding Deep Learning 』 스터디 노트

Children

Language

개요

해당 포스팅 시리즈는 “Unerstanding Deep Learning” 책을 학습하는 과정을 기록하는 스터디 노트이다.

이번에는 13장, Graph neural networks에 대해 다룬다.

Understanding Deep Learning

https://udlbook.github.io/udlbook/

1. Graph

13장에서 GNN을 다루는 만큼, 장 처음에 graph에 대해서 간단히 소개해주고 있다.

graph는 단순히 node와 edge로 이루어진 연결체만이 아닌, 분자 구조, 회로, 인간 관계, 심지어는 3D 모델링도 나타낼 수 있는, 온갖 연결의 추상화라는 걸 알 수 있었다.

이 책에서는 단순히 node와 방향이 없는 edge만으로 구성된 undirected graph만을 다루었지만, 다른 graph 구조에도 활용할 가능성도 생각해보며 딥러닝의 잠재 능력을 엿볼 수 있었다.

2. Adjacency matrix

Graph에서 node 간의 연결을 표현하기 위한 방법으로 Adjacency matrix를 제시하였다.

이를 처음 접했을 때에는, 0과 1로밖에 이루어지지 않은 행렬이니 차라리 (m,n) 2차원 tuple의 배열로 나타내는 것이 효율적이라고 생각했었다.

실제로 책에서도 tuple의 배열로 나타내는 가능성도 제시하였지만, 이후에 matrix로 표현했을 때의 특징들을 보고 생각이 바뀌었다.

Adjacency matrix를 L번 곱하면 한 node에서 L개의 edge를 거쳐 갈 수 있는 node들을 알 수 있고, GCN에서 다음 layer를 계산할 때 adjacency matrix가 요구된다.

이처럼 node 간의 연결을 표현할 때 adjacency matrix로써 표현하여 얻는 간편함이 있으므로, tuple의 배열도 좋지만 adjacency matrix도 좋다는 걸 알 수 있었다.

3. Transductive model

지금까지는 training set을 학습하고 그 이후에 testing set을 가지고 추론하는 inductive model만을 다루었다.

그러나 여기서는 training set과 testing set이 딱히 구별되지 않는, labeled 데이터와 unlabeled 데이터가 섞여있는 하나의 dataset을 처리하는 transductive model에 대해서 소개한다.

inductive model이 여러 dataset을 거쳐 데이터와 label을 mapping하는 규칙을 학습한다면, semi-supervised learning이라고도 불리는 transductive model은 데이터가 섞인 하나의 큰 dataset에서 나머지 unlabeled 데이터를 채우는 것이라 볼 수 있다.

직접적인 구현 방식은 기술되어있지 않지만, 여기서 소개한 transductive model의 가능성이 매우 클 것이라 생각하였다.

4. Graph attention network

이전에 transformer에서 소개한 attention 매커니즘을 graph network에도 적용해볼 수도 있다.

Transformer에서 쓰이는 Key-Query/Value 형식의 dot product self-attention 매커니즘은 Softmax 함수와 dot product를 사용하여 layer를 계산한다.

이와 달리 GCN은 activation function과 bias, weight, 그리고 adjacency matrix를 사용해 layer를 계산한다.

Graph attention network는 이 둘의 절충으로, graph 데이터에 bias와 weight를 적용하고, 연결된 두 node들 간의 similarity를 계산하여 attention을 적용한다.

그리고 Softmax 함수와는 다른 Softmask 함수를 사용하는데, Softmax와 같이 0~1 사이의 값으로 정규화 해주지만, edge로 연결되지 않은 node들은 계산에서 제하는 것이 Softmax와의 차이점이다.

이를 보며 transformer에서 쓰인 attention 매커니즘이 이미지 뿐만 아니라 graph network에도 쓰일 수 있기에 참 만능적인 구조라고 느끼게 되었다.

Reference

[1] Prince, S. J. D. (2023). Understanding Deep Learning. The MIT Press. Retrieved from http://udlbook.com