논문 정보

  • Title: Predicting how perturbations reshape cellular trajectories with PerturbGen
  • Authors: Kevin Chi Hao Ly, Adib Miraki Feriz, Tomoya Isobe, Amirhossein Vahidi, Delshad Vaghari, Anthony Rostron, … Muzlifah Haniffa, Berthold Göttgens, Mo Lotfollahi (총 40명 이상)
  • Affiliation: Wellcome Sanger Institute, University of Cambridge (Cambridge Center for AI in Medicine, Cambridge Stem Cell Institute), Open Targets, Newcastle University
  • Preprint: bioRxiv 2026.03.04.709254
  • GitHub: Lotfollahi-lab/Perturbgen

연구 배경 및 동기

생물학에서 가장 근본적인 질문 중 하나는 세포가 시간에 따라 어떻게 상태를 전환하며, 섭동(perturbation)이 이러한 전환을 어떻게 교란하는가이다. 세포는 분화(differentiation), 면역 반응(immune response), 질병 진행(disease progression) 과정에서 끊임없이 상태를 변화시키며, 이러한 동적 궤적(trajectory)을 이해하는 것은 병리학적 프로그램을 역전시키거나 세포를 원하는 상태로 재프로그래밍하는 개입(intervention)을 찾는 데 핵심적이다.

최근 단일세포 유전체학(single-cell genomics)의 발전으로 세포 시스템을 고해상도로 매핑할 수 있게 되었다. 그에 발맞추어 단일세포 섭동 반응을 in silico로 예측하는 계산적 접근법도 빠르게 발전해왔다. 대표적으로 같은 연구그룹의 이전 연구인 scGen (Lotfollahi et al., Nature Methods 2019)은 변이형 오토인코더(variational autoencoder, VAE)와 잠재 공간 벡터 산술(latent space vector arithmetic)을 결합하여 단일세포 섭동 반응 예측의 가능성을 처음으로 보여주었다. 이후 CPA (Compositional Perturbation Autoencoder), GEARS, scGPT 등 다양한 방법론이 후속으로 등장했다.

그러나 기존 방법들에는 근본적인 한계가 있다:

기존 접근법의 한계 설명
정적 예측 단일 시점의 섭동 반응만 예측하며, 시간에 따른 동적 변화를 포착하지 못함
궤적 비인식 초기 섭동이 후속 세포 상태를 어떻게 재편하는지 예측할 수 없음
분화 맥락 부재 발달, 면역 반응, 질병 진행과 같은 동적 과정에서의 섭동 효과를 모델링하지 못함

PerturbGen은 이 간극을 해소하기 위해 개발된 궤적 인식(trajectory-aware) 생성 파운데이션 모델로, 1억 개 이상의 단일세포 전사체(transcriptome)로 학습되어 세포 궤적을 따라 섭동 반응을 예측한다.


PerturbGen 모델 개요

PerturbGen 개요 Figure 1: PerturbGen의 개요. 궤적 인식 생성 AI 모델로, 유전적 섭동이 다운스트림 세포 상태를 어떻게 재편하는지 예측한다. (출처: Ly et al., bioRxiv 2026)

PerturbGen의 핵심 개념은 세포를 정적 스냅샷이 아닌 동적 궤적 위의 존재로 바라보는 것이다. 세포는 발달, 면역 반응, 질환 진행 과정에서 궤적을 따라 이동하며, 대부분의 기존 모델은 섭동 효과를 단일 상태 내에서만 예측한다. PerturbGen은 이를 넘어, 초기 시점의 섭동이 미래의 세포 상태를 어떻게 전파하는지를 예측한다.

모델의 주요 특징

특성 설명
학습 데이터 1억 개 이상(100M+)의 단일세포 전사체
모델 유형 생성 파운데이션 모델 (Generative Foundation Model)
핵심 차별점 궤적 인식(trajectory-aware) 섭동 예측
예측 범위 소스 상태에서의 유전적 섭동 → 다운스트림 상태 변화
적용 시스템 면역 반응, 조혈 분화, 피부 오가노이드 발달

PerturbGen은 Lotfollahi 연구실의 이전 연구들(scGen의 VAE 기반 접근, CPA의 조건부 모델링)과 flow matching 기반 방법론(MixFlow)의 축적 위에 구축되었으며, 소스 상태에서의 유전적 섭동이 다운스트림 상태를 어떻게 형성하고, 유전자 프로그램과 궤적을 시간에 따라 어떻게 변형하는지 예측할 수 있다.


주요 결과

PerturbGen은 새롭게 생성된 세 가지 다중 조건 인간 단일세포 데이터셋에 적용되었다: 면역 반응(immune response), 조혈작용(hematopoiesis), 피부 오가노이드 발달(skin organoid development).

1. In vivo 면역 챌린지에서의 섭동 예측

면역 챌린지 결과 Figure 2: In vivo 면역 챌린지에서 PerturbGen의 섭동 예측. 골수성 세포에서 IL1B 신호를 제거했을 때 후속 사이토카인-인터페론 프로그램의 감쇠를 예측한다. (출처: Ly et al., bioRxiv 2026)

첫 번째 적용 사례로, PerturbGen은 in vivo 면역 챌린지 데이터에 적용되었다.

  • 핵심 예측: 골수성 세포(myeloid cells)에서 IL1B 신호를 녹아웃(knockout)했을 때, 후속 사이토카인-인터페론 프로그램(cytokine-interferon programs)이 감쇠됨을 예측
  • 검증: 예측된 다운스트림 변화는 IL-1β 자극 시그니처의 역전(reversal)과 일관됨
  • 의의: 초기 시점의 단일 유전자 섭동이 시간적으로 하류의 면역 프로그램을 어떻게 재편하는지를 궤적 수준에서 예측할 수 있음을 보여줌

이 결과는 PerturbGen이 단순히 즉각적인 세포 반응을 예측하는 것이 아니라, 시간 축을 따른 섭동의 전파(propagation)를 포착할 수 있음을 입증한다.


2. 인간 조혈작용과 단일유전자 혈액 질환 시뮬레이션

조혈작용 결과 Figure 3: 인간 조혈작용에서의 PerturbGen 적용. 조혈 줄기세포에서 다양한 혈액 세포 계열로의 분화 궤적을 따라 섭동 효과를 예측한다. (출처: Ly et al., bioRxiv 2026)

급성 면역 반응을 넘어 동적 발달 시스템에서 PerturbGen을 평가하기 위해, 연구팀은 인간 조혈작용(hematopoiesis)을 단일세포 해상도로 프로파일링했다.

학습 데이터: 인간 CD34+ HSPC 아틀라스

  • 세포 수: 98,266개의 인간 CD34+ 조혈 줄기 및 전구 세포(HSPCs)
  • 발달 단계: 난황낭(yolk sac), 태아 간(fetal liver), 태아 골수(fetal bone marrow), 제대혈(cord blood), 소아 및 성인 골수(bone marrow) 전 범위
  • 목적: 연령 및 조직 특이적 조혈 결정(hematopoietic decision making)의 기저를 이루는 전사 네트워크 포착

조혈작용 섭동 프로그램 Figure 4: 섭동 유도 프로그램(PIPs)과 인간 유전학의 통합. 조혈 분화 계열별 섭동 효과를 인간 유전 질환과 연결한다. (출처: Ly et al., bioRxiv 2026)

핵심 발견

섭동 유도 프로그램(Perturbation-Induced Programs, PIPs)을 인간 유전학에 앵커링함으로써, 단일유전자 혈액 질환(monogenic blood disorders)을 시뮬레이션할 수 있었다.

  • 확립된 생물학의 재현: 적혈구 분화(erythropoiesis)에서의 TAL1, B 림프구 발달에서의 EBF1 등 잘 알려진 조혈 계열 분화 조절인자와 혈액/면역 질환 관련 유전자를 정확히 포착
  • 신규 발견: 이전에 알려지지 않은 다수의 유전자가 계열 특이적 프로그램에 관여함을 체계적으로 밝힘
  • 새로운 계열에서의 분석: 기존에 분석이 불가능했던 계열(lineage)에서도 질병 관련 프로그램을 규명

이 결과는 PerturbGen이 생물학적으로 일관성 있고(biologically coherent) 동시에 번역적으로 의미 있는(translationally meaningful) 유전자 프로그램을 식별함을 보여준다.


3. 피부 오가노이드 간질 성숙의 조절인자 규명

피부 오가노이드 결과 Figure 5: PerturbGen 기반 피부 오가노이드 간질 성숙 조절인자 규명. ~5,000개 유전자에 대한 in silico 섭동 스크리닝과 실험적 검증. (출처: Ly et al., bioRxiv 2026)

세 번째 적용 사례에서는 피부 오가노이드(skin organoid) 발달 데이터셋에 PerturbGen을 적용했다.

In silico 섭동 스크리닝

  • 초기 시점에서 ~5,000개 유전자에 대한 대규모 in silico 섭동 스크리닝 수행
  • 오가노이드 발달의 세 시기에 걸쳐 전사 상태를 예측:
    • 초기 (D0–45): 발달 초기
    • 중기 (D45–90): 분화 진행
    • 후기 (D90–135): 성숙 단계

핵심 예측과 실험적 검증

PerturbGen은 Wnt 신호전달 활성화가 간질 분화(stromal differentiation)를 강화하여, 인간 태아 피부(prenatal skin)에서 관찰되는 궤적을 재현한다고 예측했다. 구체적으로:

  • GSK3β 억제를 통한 Wnt 활성화가 간질 성숙의 핵심 조절자로 우선순위화됨
  • CHIR99021 (GSK3β 억제제) 처리 실험으로 예측을 검증
  • 실험 결과: 간질 유전자 프로그램이 유도되고, 오가노이드 섬유아세포(fibroblast)가 태아 피부 간질에서 관찰되는 전사 상태로 이동
  • In silico 섭동과 in vitro 데이터 간 차등 발현 유전자(DEGs)의 일치는 PerturbGen이 관찰된 반응의 핵심 측면을 포착함을 시사

이 실험적 검증은 PerturbGen의 예측이 단순한 계산적 추론을 넘어 실제 생물학적 실험으로 확인될 수 있음을 보여주는 중요한 결과다.


기존 방법과의 비교

방법 연도 핵심 접근 궤적 인식 학습 규모
scGen 2019 VAE + 잠재 공간 벡터 산술 개별 데이터셋
CPA 2021 조건부 VAE 개별 데이터셋
GEARS 2022 유전자 네트워크 기반 개별 데이터셋
scGPT 2024 Transformer 파운데이션 모델 33M 세포
PerturbGen 2026 궤적 인식 생성 파운데이션 모델 100M+ 세포

PerturbGen의 가장 핵심적인 차별점은 궤적 인식(trajectory-aware) 능력이다. 기존 모든 방법은 섭동 효과를 단일 시점에서 정적으로 예측하는 반면, PerturbGen은 시간에 따른 섭동 효과의 전파를 동적으로 모델링한다.


의의 및 전망

정적 → 동적 섭동 모델링의 전환

PerturbGen은 유전자 섭동 모델링을 정적(static) 시스템에서 동적(dynamic) 세포 시스템으로 확장했다. 이는 단일세포 섭동 생물학 분야의 패러다임 전환을 의미한다.

In silico 궤적 인식 섭동 아틀라스

연구팀은 PerturbGen이 in silico, 궤적 인식 섭동 아틀라스(perturbation atlas)와 가상 세포(virtual cell)의 구축을 가능하게 할 것으로 전망한다. 다양한 생물학적 시나리오에서:

  • 질병 모델의 최적화: 질병 진행 궤적을 따른 유전자 섭동 효과 시뮬레이션
  • 후보 분자 개입의 우선순위화: 치료 표적 발굴을 위한 대규모 in silico 스크리닝
  • 실험 설계의 가이드: 실험 전 in silico 예측을 통한 가설 생성 및 실험 최적화

단일세포 아틀라스의 예측 시스템화

더 넓은 관점에서, 이 연구는 단일세포 아틀라스가 단순한 기술적(descriptive) 자원을 넘어 예측적(predictive) 시스템이 되는 미래를 가리킨다. 조직, 발달 단계, 모달리티에 걸친 아틀라스가 확장됨에 따라, PerturbGen과 같은 모델이 동적 가상 섭동 아틀라스를 구현하여 연구자가 실험실에 들어가기 전에 개입을 시뮬레이션하고 가설을 생성할 수 있게 될 것이다.


한계점 및 고려사항

  • 아키텍처 세부 사항: 프리프린트 단계로, 모델의 세부 아키텍처(VAE, flow matching, diffusion 등 구체적 생성 프레임워크)와 학습 세부 사항에 대한 심층 분석이 필요
  • 예측 범위: 유전적 섭동(genetic perturbation)에 초점이 맞춰져 있으며, 약물(chemical perturbation) 등 다른 유형의 섭동으로의 확장이 향후 과제
  • 프리프린트: 동료 검토(peer review) 전 단계이며, 추가 벤치마킹과 독립적 검증이 필요
  • 실험적 검증의 범위: 피부 오가노이드에서의 Wnt 활성화 검증은 유망하나, 더 다양한 생물학적 맥락에서의 광범위한 실험적 검증이 필요

개인 소감

이 논문은 단일세포 섭동 생물학의 중요한 진전을 보여준다. scGen(2019)에서 시작된 Lotfollahi 연구실의 섭동 예측 여정이 PerturbGen에서 시간 축의 추가라는 핵심적인 도약을 이루었다. 특히 인상적인 점은:

  1. 세 가지 서로 다른 생물학적 시스템(면역, 조혈, 피부 발달)에서의 일관된 성능 검증
  2. 피부 오가노이드에서 in silico 예측 → in vitro 실험 검증이라는 완전한 순환의 성공적 시연
  3. 조혈작용에서 확립된 생물학의 재현과 동시에 새로운 계열 특이적 프로그램의 발견

노화 연구 관점에서, 조혈 줄기세포의 연령별 분화 궤적 데이터(난황낭부터 성인 골수까지)를 학습한 PerturbGen이 노화에 따른 조혈 변화와 이를 역전시킬 수 있는 섭동을 예측하는 데 활용될 수 있을 것으로 기대된다. 단일세포 아틀라스가 점차 “예측 가능한 시스템”으로 변모하는 트렌드의 중요한 이정표라 할 수 있다.


References

  1. Ly, K.C.H., Miraki Feriz, A., Isobe, T. et al. Predicting how perturbations reshape cellular trajectories with PerturbGen. bioRxiv (2026). DOI: 10.64898/2026.03.04.709254
  2. Lotfollahi, M., Wolf, F.A. & Theis, F.J. scGen predicts single-cell perturbation responses. Nature Methods 16, 715–721 (2019).
  3. Lotfollahi, M. et al. Compositional perturbation autoencoder for single-cell response modeling. bioRxiv (2021).
  4. Roohani, Y., Huang, K. & Leskovec, J. Predicting transcriptional outcomes of novel multigene perturbations with GEARS. Nature Biotechnology 42, 927–935 (2024).
  5. Cui, H. et al. scGPT: toward building a foundation model for single-cell multi-omics using generative AI. Nature Methods 21, 1470–1480 (2024).