논문 정보

  • Title: Precious1GPT: multimodal transformer-based transfer learning for aging clock development and feature importance analysis for aging and age-related disease target discovery
  • Authors: Anatoly Urban, Denis Sidorenko, Diana Zagirova, Ekaterina Kozlova, Aleksandr Kalashnikov, Stefan Pushkov, Vladimir Naumov, Viktoria Sarkisova, Geoffrey Ho Duen Leung, Hoi Wing Leung, Frank W. Pun, Ivan V. Ozerov, Alex Aliper, Feng Ren, Alex Zhavoronkov
  • Affiliation: Insilico Medicine
  • Journal: Aging (Albany NY), Volume 15, Issue 11, pp. 4649–4666 (2023)
  • DOI: 10.18632/aging.204788

연구 배경 및 동기

노화(aging)는 다양한 노화 관련 질환(age-related diseases)의 위험을 증가시키는 복잡하고 다인자적인 과정이다. 지난 10여 년간 노화 시계(aging clock)에 대한 연구가 폭발적으로 증가하면서, DNA 메틸화(methylation)나 전사체(transcriptome) 데이터를 활용한 생물학적 나이(biological age) 예측 모델이 다수 개발되었다.

그러나 기존의 노화 시계에는 중요한 한계가 존재한다:

  • 단일 데이터 유형 의존: 대부분의 노화 시계가 메틸화 또는 전사체 중 하나의 데이터 유형만 활용
  • 타겟 발굴과의 단절: 나이 예측 정확도에만 초점을 맞추어, 실제 치료 타겟(therapeutic target) 발굴에 활용되지 못함
  • 해석 가능성 부족: 어떤 유전자가 노화에 기여하는지에 대한 설명이 제한적

Insilico Medicine의 연구팀은 이러한 한계를 극복하기 위해, 메틸화와 전사체 데이터를 동시에 처리하는 멀티모달 트랜스포머 기반 노화 시계 Precious1GPT를 개발했다. 이 이름은 톨킨의 반지의 제왕에 등장하는 “One Ring”에서 영감을 받은 것으로, 하나의 모델로 다양한 데이터를 통합하겠다는 의미를 담고 있다.

Precious1GPT는 나이 예측의 정확도보다 치료 타겟 발굴이라는 실용적 목적에 초점을 맞춘 최초의 노화 시계 모델


연구 파이프라인

Precious1GPT의 전체 파이프라인 — 멀티모달 트랜스포머 기반 회귀 모델 학습, 전이 학습을 통한 분류 모델, 유전자 우선순위 결정, PandaOmics 타겟 분석 Figure 1: Precious1GPT의 전체 파이프라인. (A) 정상 샘플 데이터로 멀티모달 트랜스포머 회귀 모델 학습 → (B) 전이 학습으로 질환-대조군 분류기 구축 → (C) Feature importance 기반 유전자 우선순위 결정 → (D) PandaOmics 플랫폼을 통한 타겟 분석 (출처: Urban et al., Aging 2023)

Precious1GPT의 파이프라인은 네 가지 핵심 단계로 구성된다:

1단계: 멀티모달 노화 시계 학습

정상 샘플 데이터에서 트랜스포머 기반 회귀 모델(regressor)을 학습하여 나이를 예측한다. 메틸화 데이터와 전사체 데이터를 동시에 입력으로 받아 처리한다.

2단계: 전이 학습(Transfer Learning)을 통한 분류기 구축

1단계에서 학습된 가중치(weights)를 활용하여, 질환군(case)과 대조군(control)을 구분하는 분류기(classifier)로 미세 조정(fine-tuning)한다. 이때 최종 레이어를 제외한 나머지 가중치를 동결(freeze)하여 노화에 대한 사전 지식을 보존한다.

3단계: Feature Importance 기반 유전자 우선순위 결정

회귀 모델(노화 관련성)과 분류기(질환 관련성)에서 각각 feature importance 값을 추출하여, 노화와 질환 모두에 관련된 유전자를 우선순위로 정렬한다.

4단계: PandaOmics 타겟 분석

도출된 유전자 목록을 Insilico Medicine의 AI 기반 타겟 발굴 플랫폼인 PandaOmics TargetID에 입력하여, 노화 관련 질환에 대한 잠재적 치료 타겟을 분석한다.


모델 아키텍처

Precious1GPT는 TabTransformer 아키텍처를 기반으로, 수치형(numerical)과 범주형(categorical) 데이터를 동시에 처리할 수 있도록 설계되었다. 이를 통해 RNA-seq 발현 데이터와 메틸화 데이터 같은 이질적인 데이터 유형을 통합하면서, 데이터 유형과 조직 유형(tissue type) 정보까지 함께 고려한다.

학습 데이터

데이터 유형 출처 샘플 수 설명
메틸화(Methylation) EWAS Data Hub 8,374 450K Illumina Methylation Array
전사체(Transcriptomics) GTEx Project 12,453 RNA-Sequencing

하이퍼파라미터 최적화

모든 하이퍼파라미터는 Optuna 프레임워크를 통해 최적화되었다:

하이퍼파라미터 최적값
Hidden layers 128, 2048, 128
Dropout 0
Activation ELU
Learning rate 0.00023
Optimizer AdamW
Weight decay 0
Batch size 96

구현은 PyTorch Tabular 라이브러리(PyTorch 기반)를 사용하여 데이터 전처리, 트랜스포머 아키텍처 구성, 학습을 수행했다.


나이 예측 성능

Precious1GPT의 나이 예측 결과 — 메틸화, 전사체, 멀티모달 모델의 성능 비교 및 iPSC/태아 조직 검증 Figure 2: 나이 예측 모델의 성능 비교 및 iPSC, 태아 조직 데이터를 활용한 생물학적 검증 (출처: Urban et al., Aging 2023)

데이터 유형별 성능 비교

데이터 유형 MAE (년) 비고
메틸화 단독 4.23 단일 데이터 유형 중 최고 성능
전사체 단독 6.28 조직 다양성으로 인한 변이
멀티모달 (결합) 5.62 두 데이터 유형 통합

흥미롭게도, 멀티모달 모델의 MAE는 메틸화 단독 모델보다 낮았다. 이는 서로 다른 데이터 유형을 통합할 때 발생하는 노이즈와 데이터 간 불일치가 원인으로 보인다. 그러나 저자들은 이 trade-off가 타겟 발굴이라는 더 큰 목표를 위해 감수할 만하다고 주장한다.

조직별로 보면, 갑상선(thyroid) 조직에서 메틸화 모델이 MAE 2.456년, R² 0.900으로 우수한 성능을 보이는 등, 조직 특이적 성능 차이도 관찰되었다.

iPSC 및 태아 조직 검증

모델의 생물학적 타당성을 검증하기 위해, GEO 데이터베이스에서 두 가지 독립적인 데이터셋을 활용했다:

  • iPSC 유도 데이터셋 (GSE54848): 체세포를 리프로그래밍 인자로 역분화시키면서 예측 나이가 점진적으로 감소하는 패턴을 확인 — iPSC는 생물학적으로 “젊어지는” 과정이므로 모델의 예측이 생물학적 기대와 일치
  • 태아 조직 데이터셋 (GSE76641): 임신 주수가 증가함에 따라 예측 나이가 점진적으로 증가 — 태아 발달과 함께 생물학적 나이가 증가하는 것을 정확히 포착

전이 학습을 통한 질환 분류

전이 학습 기반 질환-대조군 분류 결과 — 노화 시계의 사전 학습된 표현이 질환 분류에 효과적임을 보여주는 결과 Figure 3: 전이 학습을 통한 질환-대조군 분류 성능 및 feature importance 기반 유전자 우선순위 (출처: Urban et al., Aging 2023)

Precious1GPT의 핵심 혁신은 나이 예측에서 학습된 표현(representation)을 질환 분류에 전이하는 전략이다. 이 접근법의 핵심 가정은 다음과 같다:

나이를 예측하도록 학습된 신경망의 마지막 레이어에는 질환군과 대조군을 구분하기에 충분한 정보가 이미 포함되어 있다

이 가설을 검증하기 위해, 연구팀은 4개의 대표적 노화 관련 질환을 선정했다:

질환 분류 대표 질환 약어
섬유화(Fibrotic) 특발성 폐섬유증 IPF
염증성(Inflammatory) 만성 폐쇄성 폐질환 COPD
신경퇴행성(Neurological) 파킨슨병 PD
심혈관(Cardiovascular) 심부전 HF

전이 학습 결과, 노화 시계에서 사전 학습된 모델이 처음부터 학습한 모델(from scratch)보다 질환-대조군 분류에서 더 나은 성능을 보였다. 이는 노화와 질환이 분자 수준에서 밀접하게 연결되어 있음을 시사한다.


타겟 발굴: APLNR과 IL23R

PandaOmics 플랫폼을 활용한 타겟 발굴 결과 — APLNR과 IL23R이 다수의 노화 관련 질환에서 상위 타겟으로 식별됨 Figure 4: PandaOmics 플랫폼을 통한 노화 관련 질환 타겟 분석. APLNR과 IL23R이 다수의 질환에서 공통적으로 상위에 랭크됨 (출처: Urban et al., Aging 2023)

Feature importance 분석에서 도출된 상위 200개 유전자를 PandaOmics 플랫폼에 입력한 결과, 두 가지 핵심 타겟이 발굴되었다:

APLNR (Apelin Receptor)

  • 4개 질환 모두에서 상위 20위 이내로 랭크
  • Apelin과 Elabela 펩타이드 리간드의 수용체
  • 심혈관 기능, 체액 균형, 대사 조절에 관여
  • Apelin/APLNR 신호 감소가 노화를 촉진하며, 그 회복이 건강수명(healthspan)을 연장
  • 마우스 모델에서 내인성 Apelin이 노화 관련 망막 신경절 세포 손실을 보호

IL23R (Interleukin-23 Receptor)

  • COPD, 파킨슨병, 심부전에서 상위 20위 이내로 랭크
  • 염증성 사이토카인 IL-23의 수용체
  • 만성 염증(chronic inflammation)과 밀접한 관련 — 노화의 핵심 특징(hallmark) 중 하나인 inflammaging과 직결
  • 자가면역 질환 및 염증성 질환에서 이미 치료 타겟으로 활발히 연구 중

APLNR과 IL23R은 노화와 노화 관련 질환을 연결하는 이중 목적(dual-purpose) 치료 타겟으로 제시됨


의의 및 한계

의의

  1. 패러다임 전환: 나이 예측 정확도 중심에서 치료 타겟 발굴이라는 실용적 목적으로 노화 시계의 활용 방향을 전환
  2. 멀티모달 통합: 메틸화와 전사체 데이터를 하나의 트랜스포머 모델로 통합하여 다층적 노화 정보를 포착
  3. 전이 학습 전략: 노화 → 질환으로의 전이 학습이라는 참신한 접근법으로, 노화와 질환의 분자적 연결 고리를 활용
  4. 해석 가능한 타겟: Feature importance 분석을 통해 블랙박스가 아닌 해석 가능한 타겟 발굴

한계

  • 개별 데이터 유형 대비 낮은 정확도: 멀티모달 통합 시 단일 데이터 유형 전용 모델 대비 나이 예측 정확도가 감소 (MAE 5.62 vs 4.23)
  • 제한된 데이터 유형: 메틸화와 전사체 2가지 데이터만 사용하여, 프로테오믹스(proteomics)나 대사체학(metabolomics) 등 추가 오믹스 데이터의 통합은 미비
  • 실험적 검증 부재: 발굴된 타겟(APLNR, IL23R)에 대한 직접적인 실험적 검증이 본 논문에 포함되지 않음
  • 데이터셋 제한: EWAS Data Hub과 GTEx 데이터의 샘플 수가 대규모 딥러닝 모델 학습에는 상대적으로 적음

후속 연구: Precious 시리즈의 진화

Precious1GPT는 Insilico Medicine의 Precious 시리즈의 첫 번째 모델로, 이후 지속적으로 발전하고 있다:

모델 주요 특징
Precious1GPT 멀티모달 노화 시계 + 전이 학습 기반 타겟 발굴
Precious2GPT 트랜스포머 + 확산 모델(diffusion model)을 결합한 합성 멀티오믹스 데이터 생성
Precious3GPT 멀티모달 멀티종(multi-species) 멀티오믹스 약물 발굴 플랫폼 (LLLM)

특히 Precious3GPT는 원래 다중 오믹스 나이 예측과 합성 데이터 생성 도구로 구상되었으나, 포괄적인 멀티모달 약물 발굴 플랫폼으로 진화했다.


개인적 소감

이 논문은 노화 시계의 활용 방향에 대해 중요한 질문을 던진다: “노화 시계의 목적이 단순히 나이를 맞추는 것인가, 아니면 노화를 이해하고 치료하는 것인가?”

Precious1GPT는 후자를 선택했다. 나이 예측 정확도에서는 기존의 특화된 시계들(Horvath clock, BiT age 등)에 미치지 못하지만, 노화 → 질환으로의 전이 학습이라는 아이디어는 매우 독창적이다. 특히 APLNR과 IL23R이라는 구체적인 타겟을 발굴하고, 이들이 실제로 노화 생물학에서 의미 있는 역할을 한다는 점은 이 접근법의 잠재력을 보여준다.

다만 몇 가지 아쉬운 점도 있다:

  1. “GPT”라는 이름이 붙었지만, 실제로는 TabTransformer 아키텍처를 사용한 것으로, 자기회귀(autoregressive) 생성 모델과는 거리가 있음
  2. 멀티모달 통합의 이점이 타겟 발굴에서 구체적으로 어떻게 발현되는지에 대한 추가 분석이 부족
  3. 발굴된 타겟에 대한 실험적 검증이 후속 연구로 남겨져 있음

그럼에도 불구하고, 노화 연구와 약물 발굴의 접점에서 해석 가능한 AI 모델의 가능성을 보여주는 의미 있는 연구다. Precious 시리즈의 진화를 계속 지켜볼 필요가 있다.


References

  • Urban, A., Sidorenko, D., Zagirova, D. et al. Precious1GPT: multimodal transformer-based transfer learning for aging clock development and feature importance analysis for aging and age-related disease target discovery. Aging 15, 4649–4666 (2023). https://doi.org/10.18632/aging.204788
  • PubMed PMC Full Text
  • Pun, F.W. et al. Precious2GPT: the combination of multiomics pretrained transformer and conditional diffusion for artificial multi-omics multi-species multi-tissue sample generation. npj Aging (2024). https://doi.org/10.1038/s41514-024-00163-3