관계형 데이터를 위한 그래프 파운데이션 모델 GMF(Graph Foundation Models for Relational Data)
관계형 테이블을 상호 연결된 그래프로 취급하고 그래프 학습(Graph Learning)의 발전 기술을 접목함으로써, 임의의 테이블, 피처(Feature), 작업(Task)에 모두 일반화(Generalize)할 수 있는 파운데이션 모델을 훈련할 수 있습니다.
서론 (Introduction)
관계형 데이터베이스(Relational Databases)는 기업 데이터 포맷의 대부분을 차지하며, 콘텐츠 추천이나 교통량 예측 등 사람들이 매일 사용하는 서비스뿐만 아니라 구글의 수많은 예측 서비스를 구동하는 핵심 동력입니다. 실제로 유의미한 애플리케이션들은 대부분 여러 개의 테이블을 사용하며, 구글의 일부 정교한 애플리케이션의 경우 수백 개의 테이블을 관리해야 하기도 합니다. 따라서 이러한 테이블 네트워크에서 실행 가능한 가치(Actionable value)를 추출하는 것은 상당히 까다로운 작업입니다. 기존의 정형 데이터(Tabular) 머신러닝(ML) 방법론(예: 의사결정나무, Decision Trees)은 이러한 관계형 스키마의 연결 구조(Connectivity structure)를 온전히 활용하는 데 흔히 한계를 보입니다.
반면, 최근 머신러닝의 발전은 그래프 구조 데이터에 특화된 그래프 신경망(Graph Neural Networks, GNN)을 구축할 수 있는 다양한 도구를 제공하고 있습니다. 이를 통해 비즈니스와 관련된 주요 작업들을 노드 분류(Node classification), 회귀(Regression) 또는 그래프 수준의 예측(Graph-level predictions)으로 프레임화할 수 있습니다.
그러나 대부분의 GNN은 모델이 학습된 특정 그래프에 고정되어 있어, 새로운 노드, 에지 유형(Edge types), 피처(Features), 노드 레이블을 가진 새로운 그래프에는 일반화(Generalize)할 수 없다는 한계가 있습니다. 예를 들어, 1억 개의 노드를 가진 대규모 인용 그래프(Citation graph) 벤치마크로 학습된 모델은 피처와 레이블 공간이 완전히 다르기 때문에 사용자와 상품 간의 거래 데이터 같은 개별 비즈니스 그래프에 재사용할 수 없습니다. 결과적으로 사용자는 자신의 데이터로 처음부터 모델을 다시 학습시켜야 합니다.
일부 초기 연구에서 특정 링크 예측(Link prediction) 및 노드 분류 작업에 대한 개념적 타당성을 입증하긴 했으나, 관계형 데이터 전반에서 의미 있는 표현(Representation)을 학습하고 모든 노드, 링크, 그래프 수준의 예측 작업을 통틀어 해결할 수 있는 ‘범용적 모델(Generalist model)’은 아직 존재하지 않았습니다.
이에 따라 구글은 상호 연결된 관계형 테이블에서 뛰어난 성능을 발휘하는 동시에, 추가적인 학습 없이도 임의의 테이블 세트, 피처, 작업에 일반화할 수 있는 단일 모델의 설계 가능성을 탐색하고 있습니다. 그래프 학습과 타블러(Tabular) 머신러닝의 한계를 표준 베이스라인 이상으로 확장하는 그래프 파운데이션 모델(Graph Foundation Models, GFM)의 최신 연구 진척 상황을 공유하게 되어 기쁘게 생각합니다.
관계형 테이블의 그래프화 (Relational Tables as Graphs)
구글은 테이블 내의 타블러 피처 데이터(예: 가격, 크기, 카테고리)가 부족하거나 노이즈가 심할 때에도, 테이블 간의 연결 구조를 활용하는 것이 머신러닝 알고리즘의 효과성과 다운스트림 성능(Downstream performance)을 높이는 핵심이라고 판단합니다. 이를 위한 유일한 데이터 준비 단계는 수집된 테이블들을 하나의 이종 그래프(Heterogeneous graph)로 변환하는 것입니다.
이 프로세스는 비교적 직관적이며 대규모(At scale)로 실행할 수 있습니다.
- 각 테이블은 고유한 노드 유형(Node type)이 되며, 테이블의 각 행(Row)은 하나의 노드(Node)가 됩니다.
- 테이블 행의 외래 키(Foreign key) 관계는 다른 테이블의 해당 노드로 연결되는 유형화된 에지(Typed edges)가 되며, 나머지 열(Column)은 노드 피처(Node features)(주로 수치형 또는 범주형 값)로 처리됩니다.
- 선택적으로 시계열 정보(Temporal information)를 노드 또는 에지 피처로 유지할 수도 있습니다.
각 타깃 도메인의 관계형 테이블을 그래프로 변환하면 노드 유형, 에지 유형, 노드 피처 및 노드 레이블의 수가 서로 다른 개별 그래프들이 생성됩니다. 그다음 과제는 하나의 그래프(테이블 세트)에서 학습한 후, 구조와 스키마가 다른 처음 보는(Unseen) 그래프에 대해서도 추론(Inference)을 수행할 수 있는 단일의 일반화 가능한 머신러닝 모델을 만드는 것입니다.
그래프 파운데이션 모델 (Graph Foundation Models)
파운데이션 모델을 구축하는 전형적인 방법은 방대한 양의 다양한 데이터로 학습된 고용량 신경망(예: 트랜스포머, Transformer)을 사용하는 것입니다. 그러나 GFM만의 독특한 과제는 그래프를 위한 공통 토큰화(Tokenization) 메커니즘이 없다는 점입니다. 이와 대조적으로 트랜스포머를 언어 및 비전 모델에 적용할 때는 준비된 어휘집의 토큰을 통해 가능한 모든 문자열을 표현하거나, 이미지 패치를 통해 이미지와 동영상을 인코딩할 수 있습니다.
관계형 데이터로 구성된 이종 그래프에 이를 적용하려면, 스키마의 노드 및 에지 유형의 수와 관계없이 임의의 데이터베이스 스키마를 인코딩하고 노드 피처를 처리할 수 있는 전송 가능한 방법(Transferable methods)이 필요합니다. 예를 들어, 3개의 연속형 플로트(Float) 피처를 가진 노드나 30개의 범주형(Categorical) 피처를 가진 노드를 고정된 크기의 표현으로 도출하는 작업이 포함됩니다.
구글은 인용 그래프에서 학습하고 상품 그래프에서 추론을 실행하는 등 임의의 테이블과 노드 유형에 일반화할 수 있는 단일 모델을 목표로 하기 때문에, 하드코딩된 노드 유형의 임베딩 테이블에 의존할 수 없습니다. 노드 피처 역시 마찬가지로, 모델이 ‘길이’나 ‘계절’ 같은 피처 학습에서 벗어나 ‘가격’이나 ‘크기’ 같은 임의의 플로트 및 범주형 피처로 일반화되기를 원합니다.
이 과정에서 발견한 핵심적인 사실은, 특정 피처 분포에 맞게 하드코딩된 임베딩 테이블이나 프로젝션 등 데이터셋의 ‘절대적(Absolute)’ 피처로 학습된 모델은 일반화되지 않는다는 점입니다. 반면, 다양한 작업에서 피처들이 서로 어떻게 상호작용하는지(Interaction)를 포착하는 방식은 훨씬 더 뛰어난 일반화 성능으로 이어진다는 점을 확인했습니다.
구글의 제미나이(Gemini)와 같은 최첨단 언어 및 비전 모델과 유사하게, GFM은 스키마, 구조, 피처를 포함하여 이전에 본 적 없는 새로운 그래프에 일반화할 수 있는 전송 가능한 그래프 표현을 학습하는 단일 모델입니다.
주요 성과 (Results)
구글 규모(Google scale)로 운영된다는 것은 수십억 개의 노드와 에지로 구성된 그래프를 처리함을 의미하며, 이 영역에서 구글의 JAX 환경과 확장 가능한 TPU 인프라가 특히 탁월한 성능을 발휘합니다. 이러한 방대한 데이터 볼륨은 범용 모델을 학습시키기에 적합합니다. 이에 따라 구글은 수십 개의 거대하고 연결된 관계형 테이블이 포함된 ‘광고 스팸 탐지’와 같은 여러 내부 분류 작업에서 GFM을 검증했습니다. 기존의 정형 데이터(Tabular) 베이스라인은 확장성은 있으나 서로 다른 테이블의 행 간 연결을 고려하지 않기 때문에, 정확한 예측에 유용한 컨텍스트를 놓치게 됩니다. 구글의 실험은 이러한 격차를 극명하게 보여주었습니다.
조율을 마친 최적의 단일 테이블 베이스라인과 비교했을 때, GFM은 상당한 성능 향상을 보였습니다. 다운스트림 작업에 따라 GFM은 평균 정밀도(Average Precision)에서 3배에서 40배의 성과 향상을 가져왔으며, 이는 관계형 테이블의 그래프 구조가 머신러닝 모델이 활용해야 할 매우 중요한 시그널임을 입증합니다.
결론 (Conclusions)
머신러닝 모델을 개선하기 위해 데이터의 구조를 활용하는 것은 인공지능 분야에서 중요성이 점점 더 커지고 있는 영역입니다. 구글은 그래프 학습에 파운데이션 모델 접근 방식을 도입함으로써 모델 재사용의 새로운 길을 열었으며, 제로샷(Zero-shot) 및 퓨샷(Few-shot) 일반화 성능을 대폭 향상시킬 수 있음을 확인했습니다. 이러한 결과는 일반화에 대한 심도 있는 이론적 이해와 더불어, 추가적인 스케일링(Scaling) 및 다양한 학습 데이터 수집을 통해 더욱 발전할 수 있을 것입니다.
