논문 정보
- Title: Genome modelling and design across all domains of life with Evo 2
- Authors: Garyk Brixi, Matthew G. Durrant, Jerome Ku, Michael Poli, Greg Brockman, Daniel Chang, Gabriel A. Gonzalez, Samuel H. King, David B. Li, Aditi T. Merchant, … Dave P. Burke, Hani Goodarzi, Patrick D. Hsu, Brian L. Hie (총 50명 이상)
- Affiliation: Arc Institute, Stanford University, NVIDIA, UC Berkeley, UC San Francisco, Liquid AI, Goodfire, Columbia University
- Journal: Nature (2026)
- DOI: 10.1038/s41586-026-10176-5
- Preprint: bioRxiv 2025.02.18.638918
- GitHub: ArcInstitute/evo2
연구 배경 및 동기
생물학의 중심 원리(central dogma)는 DNA → RNA → 단백질이라는 정보 흐름으로 요약된다. 그러나 게놈(genome)은 이 흐름의 시작점이면서 동시에 가장 복잡한 생물학적 언어(biological language)다. 유전자 코딩 서열뿐 아니라, 조절 요소(regulatory elements), 비코딩 RNA, 전이인자(transposable elements), 염색질 구조(chromatin structure) 등 다양한 기능적 요소가 DNA 서열 안에 중첩적으로 인코딩되어 있다.
최근 대규모 언어 모델(LLM)의 성공에 영감을 받아, DNA 서열을 자연어처럼 모델링하려는 시도가 활발히 이루어지고 있다. 2024년 Science에 발표된 Evo (v1)은 원핵생물(prokaryote)과 파지(phage)의 게놈 ~3,000억 개 뉴클레오타이드로 학습된 7B 파라미터 모델로, 단일 뉴클레오타이드 해상도에서 분자-게놈 규모의 시퀀스 모델링이 가능함을 보여주었다. 그러나 Evo 1은 진핵생물(eukaryote) 게놈을 포함하지 않아, 인간을 포함한 다세포 생물의 게놈 패턴을 학습하지 못했다는 근본적인 한계가 있었다.
Evo 2는 이 한계를 극복하기 위해, 생명의 세 도메인(bacteria, archaea, eukaryota) 전체를 아우르는 대규모 게놈 데이터로 학습된 차세대 DNA 파운데이션 모델이다.
모델 아키텍처: StripedHyena 2
Figure 1: Evo 2 개요. 생명의 모든 도메인에 걸친 게놈으로부터 학습하여 변이 효과 예측, 게놈 생성, 에피게놈 설계 등 다양한 다운스트림 태스크를 수행한다. (출처: Brixi et al., Nature 2026)
Evo 2의 핵심 아키텍처는 StripedHyena 2 (Multi-hybrid)로, 기존 Transformer의 한계를 극복하기 위해 설계된 하이브리드 아키텍처다.
핵심 구성 요소
| 구성 요소 | 역할 |
|---|---|
| 입력 의존 합성곱 연산자 (Input-dependent convolution) | Hyena 레이어 기반, 긴 시퀀스의 장거리 의존성을 효율적으로 처리 |
| 어텐션 메커니즘 (Attention) | 국소적 패턴의 정밀한 포착 |
| 상태 공간 모델 (State-space model) | 시퀀스의 연속적 동역학 모델링 |
이 하이브리드 구조 덕분에 Evo 2는 기존 최적화된 Transformer 모델 대비 약 3배 빠른 학습 속도를 달성했다. 가장 중요한 개선은 컨텍스트 길이의 확장으로, Evo 1의 131kb에서 1 메가베이스(1Mb = 100만 bp)로 약 8배 증가했다. 이는 진핵생물 게놈의 크고 복잡한 유전자 구조(긴 인트론, 원거리 조절 요소 등)를 모델링하는 데 필수적이다.
Evo 1 vs Evo 2 비교
| 특성 | Evo 1 | Evo 2 |
|---|---|---|
| 파라미터 수 | 7B | 40B |
| 학습 데이터 | ~300B 토큰 (원핵생물/파지) | ~8.85T 토큰 (전 생물 도메인) |
| 컨텍스트 길이 | 131 kb | 1 Mb |
| 도메인 범위 | 원핵생물 | 세균, 고세균, 진핵생물 전체 |
| 아키텍처 | StripedHyena | StripedHyena 2 (Multi-hybrid) |
| 인간 게놈 | 미포함 | 포함 |
학습 데이터: OpenGenome2
Evo 2는 OpenGenome2라는 대규모 고품질 게놈 아틀라스로 학습되었다. 이 데이터셋은 HuggingFace에서 공개적으로 이용 가능하다.
데이터 구성
| 데이터 유형 | 게놈 수 | 비고 |
|---|---|---|
| 진핵생물 (Eukaryota) | 15,032 | 인간, 식물, 동물, 균류 등 |
| 원핵생물 (Prokaryota) | 113,379 | 세균, 고세균 |
| 세포소기관 (Organelle) | 32,241 | 미토콘드리아 1,613개, 엽록체 12,856개, 색소체 1,751개 등 |
| 합계 | 128,000+ | 총 9.3조 뉴클레오타이드 |
2단계 학습 전략
Evo 2는 두 단계에 걸친 학습 전략을 사용했다:
- 사전 학습 (Pretraining): 8,192bp 윈도우 크기로, 유전자 영역(genic region)이 풍부한 서열을 우선 학습. 기능적 유전 요소의 패턴을 집중적으로 습득
- 중간 학습 (Midtraining): 컨텍스트를 1Mb로 확장하고, 전체 게놈 서열(whole-genome sequence) 비중을 높여 광범위한 게놈 패턴 학습
학습에는 NVIDIA DGX Cloud (AWS) 위에서 2,000개 이상의 NVIDIA H100 GPU가 수개월간 활용되었으며, 추정 비용은 약 1,000만 달러다.
안전성 고려: OpenGenome2에서는 진핵생물 숙주를 감염시키는 바이러스의 게놈 서열을 의도적으로 제외하여 잠재적 오용을 방지했다.
주요 결과
1. 변이 효과 예측 (Variant Effect Prediction)
Evo 2의 가장 인상적인 성과 중 하나는 제로샷(zero-shot) 변이 효과 예측 능력이다. 변이 특이적 학습, 아키텍처 최적화, 다중 서열 정렬(MSA) 없이도 다양한 유형의 변이가 병원성(pathogenicity)과 스플라이싱(splicing)에 미치는 영향을 정확하게 예측한다.
BRCA1 변이 예측
유방암의 핵심 유전자인 BRCA1의 변이를 Evo 2에 입력했을 때, 유해한 변이(harmful mutation)를 90% 이상의 정확도로 예측했다. 주목할 점은:
- OpenGenome2에 포함된 인간 게놈은 참조 게놈(reference genome) 단 1개뿐
- BRCA1 변이 데이터로 별도 학습한 적이 전혀 없음
- 다종(multi-species) 변이를 진화적 제약의 대리 지표로 활용하여 이 성능을 달성
- 코딩 및 비코딩 변이를 함께 예측할 때, 기존 특화 모델 GPN-MSA를 능가
Evo 2 임베딩 위에 구축한 지도 학습 모델은 BRCA1 의의불명변이(VUS, Variants of Unknown Significance) 분류에서 최고 수준(state-of-the-art)의 성능을 달성했다.
2. 게놈 규모 서열 생성 (Genome-Scale Generation)
Evo 2는 예측을 넘어, 게놈 규모의 DNA 서열을 de novo로 생성할 수 있다.
| 생성 유형 | 특징 |
|---|---|
| 미토콘드리아 게놈 | 자연스럽고 일관성 있는 서열 생성 |
| 원핵생물 게놈 | 기존 방법 대비 높은 자연성(naturalness) |
| 진핵생물 서열 | 게놈 규모에서의 유전자 구조 유지 |
생성된 서열은 기존의 어떤 방법보다 자연성(naturalness)과 일관성(coherence) 면에서 우수했다.
3. 메커니즘 해석 가능성 (Mechanistic Interpretability)
Evo 2의 내부에서 무엇을 학습했는지 이해하기 위해, 연구팀은 희소 오토인코더(Sparse Autoencoder, SAE) 기법을 적용했다. 이는 모델의 내부 활성화(activation)를 해석 가능한 특징(feature)으로 분해하는 기술이다.
SAE 분석을 통해 발견된 Evo 2의 자율 학습 특징들:
- 엑손-인트론 경계 (Exon-intron boundaries): 유전자 구조의 핵심 요소를 자발적으로 학습
- 전사 인자 결합 부위 (Transcription factor binding sites): 유전자 발현 조절의 핵심 요소
- 단백질 구조적 요소 (Protein structural elements): 2차 구조 등의 특성
- 프로파지 게놈 영역 (Prophage genomic regions): 게놈에 삽입된 바이러스 서열
- CRISPR 관련 서열 (CRISPR-associated sequences): 면역 시스템 요소
- 이동 유전 요소 (Mobile genetic elements): 전이인자 등
특히 흥미로운 점은, 일부 특징이 기존 주석(annotation)과 일치하지 않으면서도 게놈의 기능적으로 중요한 영역과 일관되게 연관되어 있었다는 것이다. 이는 Evo 2가 아직 알려지지 않은 새로운 생물학적 패턴을 포착했을 가능성을 시사한다.
4. 추론 시간 스케일링과 에피게놈 설계 (Inference-Time Scaling)
Evo 2의 가장 독창적인 기여 중 하나는 추론 시간 스케일링(inference-time scaling)을 생물학에 최초로 도입한 것이다.
Enformer, Borzoi 등의 염색질 접근성 모델(chromatin accessibility model)을 결합하여, Evo 2의 생성 과정을 가이드함으로써 특정 에피게놈 구조를 가진 DNA 서열을 제어 가능하게 생성할 수 있다. 추론에 투입하는 연산량(compute)을 늘릴수록 생성 품질이 향상되는 스케일링 법칙(scaling law)이 생물학 영역에서도 성립함을 보였다.
모스 부호 실험 (Morse Code Experiment)
이 기능의 극적인 시연으로, 연구팀은 “ARC”와 “EVO2”를 모스 부호(Morse code)로 인코딩한 염색질 접근성 프로파일을 가진 DNA 서열을 설계했다. 이렇게 설계된 서열을 마우스 배아 줄기세포(mouse embryonic stem cells)에서 실험적으로 검증한 결과, AUROC 0.92~0.95의 높은 정확도로 의도한 염색질 접근성 패턴이 재현되었다.
이는 단순한 기술적 시연을 넘어, 합성 생물학(synthetic biology)에서 원하는 후성유전학적(epigenetic) 특성을 가진 DNA 서열을 설계할 수 있는 가능성을 보여준 중요한 결과다.
의의 및 한계
의의
- 범용 게놈 파운데이션 모델: 세균, 고세균, 진핵생물을 포함한 생명의 모든 도메인을 단일 모델로 학습한 최초의 대규모 DNA 모델
- 제로샷 임상 변이 예측: 특화된 학습 없이도 BRCA1 등 임상적으로 중요한 유전자의 변이 효과를 정확하게 예측. 정밀 의학(precision medicine)에 대한 직접적 응용 가능성
- 추론 시간 스케일링: 생물학에서 최초로 추론 시간 스케일링을 시연하여, 에피게놈 구조의 제어 가능한 설계를 가능케 함
- 해석 가능성: SAE를 통해 모델 내부에서 학습된 생물학적 특징을 체계적으로 분석하여, 블랙박스 비판을 부분적으로 해소
- 완전 공개(Fully Open Source): 학습 데이터(OpenGenome2), 학습/추론 코드, 모델 가중치 모두를 공개하여 최대 규모의 완전 오픈소스 AI 모델
한계 및 후속 연구 방향
- 학습 비용: 2,000개 이상의 H100 GPU를 수개월간 사용하는 ~1,000만 달러 규모의 학습 비용은 대부분의 연구 기관에서 재현 불가능
- 생성 서열의 실험적 검증: 게놈 규모 서열 생성 능력은 인상적이나, 실제 생물학적 기능의 실험적 검증은 아직 제한적 (모스 부호 실험은 에피게놈 수준의 검증에 한정)
- 진핵생물 게놈 생성의 한계: 원핵생물에 비해 진핵생물 게놈의 복잡성(반복 서열, 이질염색질 등)이 훨씬 크므로, 기능적으로 완전한 진핵생물 게놈 생성은 여전히 도전적인 과제
- 단일 모달리티: DNA 서열만을 입력으로 사용하므로, 3D 게놈 구조(Hi-C), 후성유전체(epigenome), 전사체(transcriptome) 등의 다중 모달리티 통합은 향후 과제
- 안전성과 윤리: 진핵생물 바이러스 서열을 제외하는 등의 안전 조치를 취했으나, 게놈 설계 기술의 잠재적 이중 용도에 대한 지속적인 논의가 필요
개인적 소감
Evo 2는 생물학 AI 분야에서 하나의 이정표(milestone)라 할 수 있다. 특히 인상적인 부분은:
-
스케일의 힘: 7B → 40B 파라미터, 300B → 8.85T 토큰으로의 스케일업이 단순한 양적 개선이 아닌 질적 도약을 가져왔다는 점이다. 원핵생물에서만 작동하던 모델이 인간 게놈의 임상적 변이까지 예측할 수 있게 된 것은, 다양한 생물종의 게놈에서 공통적인 진화적 규칙을 학습했음을 시사한다.
-
추론 시간 스케일링의 생물학적 적용: LLM 분야에서 주목받고 있는 추론 시간 스케일링(test-time compute)을 생물학에 접목한 것은 매우 흥미로운 시도다. 이는 모델 크기를 더 키우지 않고도 성능을 개선할 수 있는 경로를 제시한다.
-
모스 부호 실험의 상징성: “ARC”와 “EVO2”를 모스 부호로 염색질에 새긴 실험은, 과학적 의미를 넘어 “우리는 이제 게놈을 설계할 수 있다”라는 선언과도 같다. AUROC 0.92~0.95라는 높은 정확도는 이 기술이 실용적 수준에 도달했음을 보여준다.
노화 연구(aging research) 관점에서, Evo 2는 여러 흥미로운 응용 가능성을 갖고 있다. 노화 관련 비코딩 변이(noncoding variant)의 기능적 영향 예측, 노화에 따른 후성유전학적 변화의 모델링, 그리고 SAE를 통해 발견된 미지의 생물학적 특징 중 노화 관련 패턴이 포함되어 있을 가능성이 있다. 특히 Evo 2가 학습한 다종(multi-species) 게놈 패턴은 종간 수명 차이의 유전적 기반을 탐구하는 데에도 활용될 수 있을 것이다.
Arc Institute가 제시하는 다음 목표인 “가상 세포(virtual cell)” 구축은, Evo 2가 그 기반이 되는 첫 걸음임을 분명히 보여준다.
References
- Brixi, G., Durrant, M.G., Ku, J., Poli, M. et al. Genome modelling and design across all domains of life with Evo 2. Nature (2026). https://doi.org/10.1038/s41586-026-10176-5
-
bioRxiv Preprint GitHub Arc Institute
💬 댓글