논문 정보
- Title: Korean Genome Project: 1094 Korean personal genomes with clinical information
- Authors: Sungwon Jeon, Youngjune Bhak, Yeonsong Choi, Yeonsu Jeon, Seunghoon Kim, Jaeyoung Jang, Jinho Jang, Asta Blazyte, Changjae Kim, Yeonkyung Kim, … Semin Lee, Jong Bhak
- Affiliation: Korean Genomics Center (KOGIC), UNIST; Personal Genome Project, Harvard Medical School
- Journal: Science Advances, Volume 6, Issue 22, eaaz7835 (2020)
- DOI: 10.1126/sciadv.aaz7835
연구 배경 및 동기
인간 유전체 연구의 핵심 과제 중 하나는 집단 특이적(population-specific) 유전 변이를 체계적으로 카탈로그화하는 것이다. 1000 Genomes Project(1KGP)를 비롯한 대규모 국제 프로젝트가 전 세계 집단의 유전적 다양성을 밝히는 데 기여했지만, 동아시아 인구의 대표성은 상대적으로 부족했다. 특히 한국인은 수천 년간의 지정학적 고립(geopolitical isolation)으로 인해 유전적으로 균질한 집단을 형성하고 있어, 별도의 인구 특이적 레퍼런스가 필수적이다.
Korean Genome Project(KGP)는 Harvard Medical School의 Personal Genome Project, 한국표준과학연구원(KRISS), Clinomics Inc., 그리고 UNIST의 Korean Genomics Center(KOGIC)가 공동으로 추진한 대규모 유전체 프로젝트다. 본 논문은 KGP의 첫 번째 단계인 Korea1K의 성과를 보고하며, 1,094명의 한국인 전장유전체(WGS)와 79가지 정량적 임상 형질(quantitative clinical traits) 데이터를 공개했다.
한국인 집단 유전체 레퍼런스를 구축하여 임상 연구, 민족유전학 연구, 그리고 암 유전체 분석에 활용 가능한 자원을 제공하는 것이 이 연구의 핵심 목표다.
연구 설계 및 방법론
코호트 구성
Korea1K 데이터셋은 총 1,094개의 전장유전체로 구성된다:
| 구분 | 수량 | 설명 |
|---|---|---|
| 신규 시퀀싱 | 1,007명 | 혈액 또는 타액 샘플, 984명에 대한 임상·생화학 정보 포함 |
| KoVariome 기존 데이터 | 87명 | 이전에 공개된 KoVariome 데이터베이스 통합 |
| 비혈연 건강 개체 | 916명 | 친족 관계 제거 후 집단 유전학 분석에 사용 |
대부분의 샘플은 울산광역시(Ulsan metropolitan area) 거주자로부터 수집되었다.
시퀀싱 및 분석 파이프라인
- 시퀀싱 플랫폼: Illumina HiSeq X10
- 평균 커버리지: 31×
- 변이 검출(variant calling): SNV, indel, CNV, 전위인자(transposable element, TE) 삽입, HLA 타이핑을 포함한 다층적 분석
- 레퍼런스 게놈: 최신 인간 게놈 레퍼런스 사용
- 품질 관리: 시퀀싱 배치 효과(batch effect) 및 친족 관계에 의한 위양성 변이 필터링
주요 결과
1. 변이 통계 및 신규 변이 발견율
Korea1K에서 총 3,920만 개의 SNV와 760만 개의 indel이 검출되었다. 품질 필터링 후 3,400만 SNV와 480만 indel이 최종 분석에 사용되었다.
Figure 1: Korea1K의 변이 통계 및 신규 변이 발견율. (A) 대립유전자 빈도 카테고리별 변이 수 분포. (B) 비혈연 한국인 게놈 수에 따른 신규 변이 발견 곡선. 매우 흔한 변이(AF >0.05)는 132개 샘플(14.4%) 이후 포화되었으나, 싱글톤·더블톤 변이는 916개 전체 샘플 분석 후에도 지속적으로 증가했다. (출처: Jeon et al., Sci Adv 2020)
변이는 대립유전자 빈도(allele frequency)에 따라 5가지 카테고리로 분류되었다:
| 카테고리 | 정의 | 비율 |
|---|---|---|
| 싱글톤(Singleton) | 대립유전자 수 = 1 | 전체의 ~50% |
| 더블톤(Doubleton) | 대립유전자 수 = 2 | (싱글톤과 합산 ~50%) |
| 희귀(Rare) | 대립유전자 수 >2, AF ≤0.01 | - |
| 흔한(Common) | 0.01 < AF ≤ 0.05 | - |
| 매우 흔한(Very common) | AF > 0.05 | 132개 샘플 후 포화 |
주목할 점은 전체 변이의 약 절반이 싱글톤 또는 더블톤이라는 것이다. 이는 한국인 집단 내에서도 개인 간 유전적 다양성이 상당히 크며, 더 많은 샘플 시퀀싱이 희귀 변이 발견에 필수적임을 시사한다.
2. 집단 구조 분석 및 타 집단과의 비교
Figure 2: Korea1K와 1KGP 세계 집단 간 주성분 분석(PCA) 및 전위인자(TE) 삽입 빈도 비교. 한국인은 동아시아 집단 내에서도 뚜렷한 클러스터를 형성하며, 유전적으로 매우 균질한 집단임이 확인되었다. (출처: Jeon et al., Sci Adv 2020)
PCA(주성분 분석)를 통해 Korea1K와 1KGP의 전 세계 26개 집단을 비교한 결과:
- 한국인은 동아시아 집단과 함께 클러스터링되지만, 동아시아 내에서도 독립적인 클러스터를 형성
- ADMIXTURE 분석에서 한국인 단독 분석 시 최적 하위집단 수(K)는 K=1로, 한국인이 유전적으로 매우 균질한(homogeneous) 집단임을 확인
- fineSTRUCTURE 분석에서도 한국인은 단일 분기(single clade)를 형성
- 이러한 균질성은 수천 년간의 지정학적 고립으로 설명 가능
전위인자(TE) 삽입 분석에서도 한국인과 다른 동아시아 집단 간 유의하게 다른 대립유전자 빈도를 보이는 TE가 다수 확인되어, 한국인 특이적 유전체 패턴이 존재함을 보여주었다.
3. 비동의 변이 및 기능적 주석
Korea1K에서 266,081개의 비동의(nonsynonymous) SNV가 확인되었다:
| 예측 도구 | 분류 | 수량 |
|---|---|---|
| PolyPhen | Possibly damaging | 46,116 |
| PolyPhen | Probably damaging | 72,301 |
| SIFT | Deleterious | 117,414 |
이러한 잠재적 병원성 변이(pathogenic variant) 정보는 한국인 특이적 질병 유전학 연구에 중요한 기초 자원이 된다.
4. 전장유전체 연관 분석 (GWAS)
Figure 3: Korea1K GWAS Manhattan plot. 각 색상은 서로 다른 임상 형질을 나타낸다. 삼각형은 가장 유의한 마커를 표시하며, 점선은 유전체 전체 유의 수준(7.5 × 10⁻⁹)과 연구 전체 유의 수준(9.5 × 10⁻¹¹) 임계값을 나타낸다. (출처: Jeon et al., Sci Adv 2020)
79가지 임상 형질에 대한 GWAS를 수행한 결과:
- 467개 변이가 11가지 정량적 형질과 통계적으로 유의한 연관성을 보임
- 467개 변이는 8개 염색체 상의 15개 독립 좌위(independent loci)로 클러스터링
- 15개 좌위 중 11개는 이전에 보고된 형질 연관 변이 포함
- 4개의 새로운 좌위가 이 연구에서 최초로 발견
- 기존 연관불균형(LD) 블록에서 9개의 더 유의한 후보 대립유전자를 발견
이 결과는 어레이 기반 유전형 분석(genotyping array)보다 전장유전체 시퀀싱(WGS)이 GWAS에서 더 높은 해상도와 검출력을 제공함을 입증한다.
5. 임퓨테이션 정확도 비교
Figure 4: 레퍼런스 패널별 임퓨테이션 정확도 비교. X축은 Korea1K에서의 대체 대립유전자 빈도, Y축은 SNV의 집계 R² 값을 나타낸다. Korea1K를 레퍼런스로 사용했을 때 한국인에 대한 임퓨테이션 정확도가 1KGP 패널보다 우수했다. (출처: Jeon et al., Sci Adv 2020)
유전형 임퓨테이션(genotype imputation)은 GWAS에서 직접 측정되지 않은 변이를 추정하는 핵심 기술이다. Korea1K를 레퍼런스 패널로 사용한 결과:
- Korea1K 레퍼런스가 1KGP 패널보다 한국인에 대한 임퓨테이션 정확도가 높음
- 특히 희귀 변이(rare variant) 영역에서 정확도 차이가 두드러짐
- 이는 인구 특이적 레퍼런스 패널의 중요성을 강조하는 결과
6. 암 유전체 분석에서의 활용: Panel of Normals
Figure 5: 서로 다른 Panel of Normals를 사용한 변이 분류 성능 비교. (A) 정확도(ACC), (B) Matthews 상관계수(MCC), (C) 생식세포 변이 회수율. EAS, SAS, AMR, EUR, AFR은 각각 1KGP의 동아시아, 남아시아, 아메리카, 유럽, 아프리카 집단을 나타낸다. (출처: Jeon et al., Sci Adv 2020)
암 유전체 분석에서 체세포 변이(somatic variant)와 생식세포 변이(germline variant)를 정확히 구분하는 것은 매우 중요하다. Korea1K를 Panel of Normals로 활용한 결과:
- Korea1K를 사용했을 때 가장 높은 변이 분류 정확도를 달성
- 비한국인 변이 데이터베이스를 사용할 때보다 생식세포 변이 필터링 성능이 우수
- 이는 민족 특이적 정상 변이 데이터베이스가 암 유전체 분석에서 필수적임을 시사
Korea1K와 일본인 데이터(3.5KJPN)를 결합하여 변이의 대립유전자 빈도 기반 임계값으로 체세포/생식세포 변이를 분류하였으며, 분류 결과를 실제 검증 세트(true set)와 비교하여 성능을 평가했다.
의의 및 한계
의의
- 최대 규모의 한국인 유전체 레퍼런스: 1,094개의 전장유전체와 79가지 임상 형질 데이터를 포함한 한국 최대 규모의 유전체 자원 공개
- GWAS 해상도 향상: WGS 기반 GWAS가 어레이 기반보다 우수한 검출력을 보이며, 새로운 형질 연관 좌위 발견
- 임퓨테이션 정확도 개선: 한국인 특이적 레퍼런스 패널이 국제 패널보다 높은 정확도를 제공
- 암 유전체 분석 활용: Panel of Normals로서 한국인 암 환자의 변이 분류 정확도 향상
- 공개 데이터: 연구 결과를 Korea1K 웹페이지를 통해 공개하여 학계 전반의 활용 가능
한계
- 지역적 편향: 대부분의 샘플이 울산광역시에서 수집되어 한반도 전체를 대표하기에 한계
- 샘플 크기: 1,094명은 한국인 집단의 희귀 변이 구조를 완전히 파악하기에는 여전히 부족
- 잠재적 구조 변이 한계: 숨겨진 유전체 구조 변이(latent genomic structural variation)를 포괄적으로 매핑하기에 제한적
후속 연구: Korea4K로의 확장
Korea1K의 성과를 바탕으로 Korea4K 프로젝트가 후속으로 진행되었다. Korea4K는 4,157명의 전장유전체와 107가지 건강검진 파라미터를 포함하며, 한국인에서 대립유전자 빈도 0.001 이상인 대부분의 변이를 포괄한다. Korea4K에서는 45,537,252개의 변이가 확인되었으며, 그중 절반은 Korea1K에 없던 새로운 변이였다.
개인적 소감
이 논문은 인구 집단 특이적 유전체 레퍼런스가 왜 중요한지를 명확히 보여주는 연구다. 전 세계적으로 유전체 연구가 유럽계 중심으로 편향되어 있는 현실에서, Korea1K는 동아시아, 특히 한국인 집단을 위한 독자적인 유전체 인프라를 구축했다는 점에서 큰 의미가 있다.
특히 인상적인 것은 실용적 활용성(translational utility)의 다층적 입증이다. 단순한 변이 카탈로그를 넘어, GWAS의 해상도 향상, 임퓨테이션 정확도 개선, 그리고 암 유전체 분석에서의 Panel of Normals 활용까지, 실제 임상 연구에 직접 기여할 수 있는 다양한 경로를 제시했다. 노화 연구(aging research) 관점에서도, 한국인 특이적 유전 변이와 임상 형질 간의 연관 관계 데이터는 한국인 노화 바이오마커 발굴이나 정밀 의학(precision medicine) 접근에 핵심 자원이 될 것이다.
다만 울산 지역 중심의 샘플 수집이라는 한계는 분명히 존재하며, 향후 Korea4K를 넘어 전국적 규모의 다양한 코호트로 확장되기를 기대한다.
References
- Jeon, S., Bhak, Y., Choi, Y., et al. Korean Genome Project: 1094 Korean personal genomes with clinical information. Science Advances, 6(22), eaaz7835 (2020). DOI
- 1000 Genomes Project Consortium. A global reference for human genetic variation. Nature, 526, 68–74 (2015).
- Jeon, S., et al. Korea4K: whole genome sequences of 4,157 Koreans with 107 phenotypes derived from extensive health check-ups. GigaScience (2024). PubMed
- Korea1K 데이터 포털: http://1000genomes.kr/
💬 댓글