차세대 시퀀싱 (Next Generation Sequencing, NGS)

註 한국생명공학연구원 김남신, 추인선 박사가 대한생화학분자생물학회 웹진(2009년 10월호)에 기고한「차세대시퀀싱(NGS) 기술의 활용」을 전재한 것으로 이해를 돕기 위해 사진을 첨부하였고, 일부 어려운 내용은 쉬운 문장으로 수정하였다. 차세대시퀀싱의 내용이 하루가 다르게 발전하고 있어 조만간 대폭 수정보완해야 할 것으로 판단된다.

차세대 시퀀싱 (Next Generation Sequencing, NGS) 기술의 활용

다양한 생체 정보는 DNA 염기서열의 유전자로 표현되고, 개체의 완전한 DNA 염기서열 정보는 생명현상을 이해하고 질병과 관련된 정보를 얻을 수 있어 매우 중요하다. 한편으로는 복잡한 생물학적 실험과정, 단순하지 않은 대용량의 바이오 데이터를 다루는 생물정보학(bioinformatics) 및 방대한 유전정보의 유전학적 활용방안 등의 문제가 산적해 있다.

DNA 염기서열 정보의 해독, 즉 게놈시퀀싱(genome sequencing)의 핵심은 개인차 및 민족적 특성을 파악하거나 유전자 이상과 관련된 질환에서 염색체 이상을 포함한 선천성 원인의 규명과 당뇨병, 고혈압과 같은 복합질병의 유전자 결함을 찾기 위한 것이다. 또한 시퀀싱 데이터는 유전자 발현, 유전자 다양성 및 그 상호작용 등의 정보들을 분자진단과 치료영역에서 폭넓게 활용할 수 있어 매우 중요하다.

2007년 Solexa가 Illumina사에 합병되면서 차세대 염기서열분석(Next Generation Sequencing, NGS)이라는 용어가 사용되기 시작하였다. 현재는 2세대에 해당되며 NGS 기술의 발달에 힘입어 대용량 염기서열 정보가 전통적인 방법들에 비해 훨씬 쉽고 저비용으로 분석할 수 있게 되었지만, 여전히 100% 정확하게 전체 DNA 염기서열 정보를 파악할 수 없다는 한계성도 있다.

2004년 인간게놈프로젝트(Human Genome project, HGP)의 종결 선언 후, Sanger 방법을 사용하여 처음으로 시행한 개인의 게놈 정보는 2007년 크렉 벤터(Levy et al., 2007)의 염기서열 정보이다. 벤터의 DNA 시료는 HGP의 여러명 중에 하나로 비교적 짧은 시간에 저비용으로 가능하였다. 2008년 FLX 454를 이용한 제임스 왓슨(James Watson)의 DNA 염기서열 정보가 벤터의 경우와 비교하여 거의 1%의 비용으로 해독이 가능하였다(Wheeler DA et al., 2008).

최근 2년간 Illumina사의 Solexa를 이용한 흑인 및 아시아인을 포함한 다수의 시퀀싱 정보(Bentley DR et al. 2008, Wang, J et al. 2008, and Kim JI et al. 2009, Ahn SM et al. 2009)들이 보고 되었고, Biosciences 사의 Single Molecule Sequencer에 의한 한 유럽인의 시퀀싱 결과(Pushkarev D. et al., 2009)도 발표되었다. 또한 미국 MIT의 연구그룹을 중심으로 진행되고 있는 1000 Genome Project의 대용량 데이터들이 순차적으로 대량의 인간 게놈 데이터가 공개될 것이다. 이 외에도 비공개적으로 많은 수의 개인 시퀀싱 프로젝트들이 진행되고 있다.

앞으로 NGS 기술은 유전체와 후생유전체를 포함하여 많은 분야에서 이용될 것이지만 데이터의 복잡성으로 인해 소수의 생물정보학 분야의 전문가만이 다룰 수 있는 상황이다. R&D 및 바이오-의료 분야에서 NGS 기술을 제대로 활용할 수 있는 연구체계 구축이 중요한 시점이다.

1. 개인 유전체 분석 및 맞춤의료

다국적 연구자들이 진행하고 있는 1000 Genome Project는 인간의 유전적 다양성에 대한 보다 엄밀한 청사진을 그리는 것을 목표로 하는 계획으로 제2의 HGP라 할 수 있으며, 유사한 프로젝트들의 가시적인 결과들이 보고되는 단계에 접어들고 있다. 이러한 대형 프로젝트들의 결과로 방대한 데이터들을 활용할 수 있는 시대를 맞이하고 있지만, 현 시점에서 중요한 것은 DNA 염기서열 정보를 질병과 연관시켜 활용할 수 있는 체계적인 준비이다.

이를 위해서는 정상인을 대상으로 하는 DNA 염기서열분석이라 할지라도 병리학적으로 정의된 다양한 의료정보와 함께 의료행위 범주에서 개인의 유전체 정보를 사용하여야 하고, 이러한 유전체 정보들을 최대한 활용할 수 있기 위해서는 질병관련 유전자 및 단백질들의 기능들이 밝혀져야 한다.

특히 환자로부터 수집된 유전체 정보는 서로 다른 증상이나 질병의 진행과 연관된 유전적인 특징을 규명하는데 중요하고 궁극적으로 치료법과 새로운 약물 개발로 연계될 것이다. 이는 NGS 기술의 일반화와 함께 개인 유전체 정보를 알 수 있다면 맞춤의료에 한발 더 다가설 수 있는 것은 사실이지만, 어디까지 질병의 원인이나 발병 등의 메커니즘을 이해하는 것으로 제한되고 해결방법에 대한 기능적인 정보가 미흡한 상태이다.

즉 각 질병과 연관된 많은 부분의 유전적 기능을 알지 못하면 개인 유전체 정보를 알고 있어도 최상의 개인맞춤 의료가 불가능하다. 개인 맞춤의료 실현을 목표로 체계적인 개인 유전체(Personal Genome) 시대의 준비와 동시에 대용량 바이오 정보들을 총체적으로 다룰 수 있는 정보학 및 유전학적 연구환경 조성도 중요하다.

2. 다양한 응용기법

전통적인 Sanger 시퀀싱 방법은 실험과정에 소요되는 시간이나 비용 및 그 응용성을 고려하면 대부분의 분야에서 NGS 기술로 대체되고 Genome-wide SNP 칩의 활용도 매우 낮아 질 것으로 예상된다. NGS 기술 사용이 보다 일반화되면 Transcriptome(전사체) 분야를 포함하여 많은 부분 NGS 기술이 PCR이나 마이크로어레이 기술 등을 대체할 것이다(그림 1).

현재 시퀀싱 관련 대량의 정보들이 NCBI의 DB를 통하여 공개되고 있지만, 여러 가지 이유로 불완전한 부분이 많다 (Pushkarev D. et al.2009). 이는 개체의 조직형태에 따라 게놈의 다양한 변이가 존재하고, NGS 기술로는 Re-sequencing 개념으로 제한되는 불완전한 해독이며 반복서열의 문제점, Haplotype phasing이 어렵고 분석에 제한적이며, 또한 전체 구조적인 변이의 정의가 미흡하고 SNP를 결정할 때의 false-positive와 false-negative 비율 등 NGS 기술을 제대로 활용하기 위해 해결해야 할 문제들이 산적해 있다.

NGS 기술을 이용한 게놈 시퀀싱 정보들은 대부분 paired-end 방법을 채택하고 있으며 시퀀스 배수가 20~40X 정도이며 수천 개 이상의 구조적인 변이들을 포함하고 있을 것으로 예측하고 있다. DNA 염기서열 정보로부터 얻을 수 있는 가장 핵심적인 부분은 개인차를 가장 잘 설명하는 집단 안에서 변이(variation)이며 SNP (Single Nucleotide Polymorphism), MNP (Multi Nucleotide Polymorphism), InDel (Insertion and Deletion) 및 Structural Variation (Inversion, Translocation), CNV (Copy Number Variation) 등을 생각할 수 있다. 이러한 변이 정보들을 관련된 DB 등과 비교분석함으로써 다방면에서 잠재적으로 질병과 연관성이 높은 마커들을 발굴할 수 있고, 이는 질병의 예측과 진단에 활용할 수 있으며 암환자의 예후를 판단하거나 분자진단을 위한 핵심 바이오마커를 발굴할 수 있다.

하나의 염기가 다른 것으로 대체되는 돌연변이와는 달리 두 염기서열을 비교할 때 DNA 염기 서열의 InDel은 결손된 핵산(Nucleic Acid) 영역에서 발견되며 돌연변이의 원인이 되기도 한다. 한편으로 국제 HapMap 프로젝트 등이 진행되어 많은 정보가 공개되었지만 InDel 관련 정보는 충분하지 않으며, 수많은 개인 유전체를 분석한 데이터가 쌓여야 보다 정확한 InDel 관련 DB가 구축될 것이고, 질환 관련 유전자에 대한 보다 엄밀한 정의가 가능해 질 것이다.

2.2. 타겟 게놈 시퀀싱

아직까지 전체 게놈을 시퀀싱은 비용의 문제가 크게 작용하지만, 특히 특정 부분의 유전자 혹은 유전체 영역에 집중해서 시퀀싱하는 방법도 질병관련 분야에서 활용은 장점이 많다. 암과 관련 수천 개의 유전자 또는 Kinase 등 중요한 유전자를 중심으로 타겟 시퀀싱 프로젝트들이 진행되고 있다. 예를 들어, Harvard 의대의 Dr. Church는 최근 100,000명의 exome을 시퀀싱하는 Personal Genome Project를 진행 중이며, 일차적으로 10명 (PGP-10)에 대해서 Personal Health Record와 함께 웹에서 데이터를 공개하고 프로젝트를 계속 진행하고 있다.

대표적으로 타겟을 선택하기위해서 사용하는 방법은 Hybridization 기술이며 Nimblegen과 Agilent Technologies사에서 전체 exome 용으로 사용자 디자인이 가능한 마이크로어레이 및 타겟을 선택하기 위한 장비를 시비스하고 있다. 또한 Agilent 사는 실험이 간단하고 특별한 장비가 필요없는 액상에서 타겟을 선택할 수 있는 kit을 서비스하기 시작하였다.

예를 들어, 워싱턴주립대학과 Agilent 사 연구팀은 공동으로 Agilent의 타겟 캡쳐 어레이, Illumina GA2 Platform을 이용하여 8명의 HapMap 정상인 검체와 4명의 멘델유전질환인 Freeman-Sheldon syndrome (FSS) 환자의 exome을 시퀀싱하여 protein coding variation을 찾는 연구(Ng SB, et al., 2009) 결과를 발표하였다. 여기서 FSS 원인유전자인 MYH3만이 정상인과 환자 사이에서 차이를 보인다는 사실을 알았다. 이러한 exome 시퀀싱은 많은 수의 검체를 대상으로 할 경우 더 복잡한 질병과 연관된 유전적 변이를 찾고, 진단 표지자를 발굴하는데 유용하게 사용될 수 있다.

NGS 기술의 발전으로 일주일 정도면 한 사람의 게놈 시퀀싱이 가능하게 되었지만, SNP나 CNV의 분석에 다양한 분야의 전문성을 확보한 그룹에서만 의미있는 결과를 도출할 수 있다. 또한 수천 명의 게놈 시퀀싱 데이터를 다루어야 하는 분야에서 매우 높은 수준의 생물정보학적 요구가 생기는 것은 당연하다. 점진적으로 표1과 같은 분석결과들이 쌓이면 구조적인 변이(CNV)에 대한 정보는 급속하게 증가할 것이며 이러한 분석이 가능해야만 난치병 해결에도 한 발더 다가설 수 있다.

2.3. Transcriptome, RNA-Seq 및 Methylation-Seq

환경적 요인에 의해 질병이 발생하는 경우도 있지만 대부분 DNA와 관련되어 세포 내부에서의 변화가 주원인이며, HGP완성 후 유전체 관련 기술의 발달에 힘입어 바이오마커 발굴과 함께 게놈 구조 차이를 규명할 수 있게 되어 질병과의 관련성도 분석할 수 있게 되었다.

유전자발현연구에 있어서 Hybridization에 바탕을 둔 마이크로어레이 기술은 많은 한계점이 있다. 알려진 유전자를 중심으로 probe를 디자인 해야 하는 점과, detector의 노이즈에 의해 발현이 낮거나 높은 경우에는 제대로 분석을 할 수 없는 단점이 있고, 실험간의 편차도 큰 편이었다. 또한 Exon 마이크로어레이는 유전자발현 마이크로어레이에 비해 상대적으로 단가가 높은 문제점과 데이터의 정규화를 포함한 통계적 방법들을 적절하게 적용해야 하는 등 많은 연구자들이 쉽게 다루기 힘들며, 보다 어려운 문제점은 시퀀싱 데이터를 다룰 때도 생기지만 유전자와 Exon의 발현 및 발현된 유전자의 각종 변이 등을 한꺼번에 연구할 수 있는 대체 기술이 RNA-Seq이다.

이는 유전자 발현 연구에 지금까지 해왔던 패턴에서 벗어나 새로운 시각 및 다양한 연구 방향을 제시할 것이다. 또한, 유전자가 알려지지 않은 종에 대해서도 적용할 수 있다는 강력한 이점이 있다. NGS 기술은 Tag을 이용한 유전자발현프로파일(Digital Gene Expression: DGE) 연구에 효과적이며 각 유전자의 발현 정도나 특이 유전자 발굴 등에 유용하며, 분석 대상의 시퀀스 정보가 없어도 유전자 발현 분석이 가능하다.

NGS 기술은 Whole Transcriptome 시퀀싱이 가능한 것은 물론 새로운 transcript, splice isoform, transcript 구조 및 질병과 관련된 coding SNP 연구를 포함하여 small RNA 연구분야까지 확대할 수 있다. 또한 100 bp이상의 read 시퀀싱이 가능하며, 5kb까지 insert 길이를 조절할 수 있어 De novo 시퀀싱에 적용할 수 있는 단계까지 도달하였지만 대부분 Re-sequencing이므로 분석할 때 false positive와 false negative 문제를 해결하는 것이 중요하다.

마이크로어레이 기술에 비해 시퀀싱에 바탕을 둔 방법들은 바로 cDNA의 시퀀싱을 결정할 수 있다는 장점이 있다. 즉, Tag-profiling으로 통하는 Serial Analysis of Gene Expression(SAGE), Cap Analysis of Gene Expression(CAGE), Massively Parallel Signature Sequencing (MPSS) 방법들은 DGE 개념의 유전자발현 연구가 가능하지만 Sanger 방법에 바탕을 둔 것이므로 고비용의 문제와 짧은 tag는 레퍼런스 시퀀스에 유일하게 맵핑되기 힘들다는 문제점 등으로 거의 활용되지 못하고 있는 실정이다. 이러한 문제점들을 극복하기 위해 고안된 RNA-Seq은 여러 가지 장점을 가지고 있다 (Wang Zet al., 2009). 또한 Sanger 방법에 비해 민감도와 비용면에서 효율적인 암유전자발현 연구를 위해 NGS 플랫폼을 이용하여 Tag-Seq 방법(Morrissy AS et al., 2009)도 새롭게 개발되었다. 또한 non-coding RNA 중에 microRNA는 길이가 짧기 때문에 아주 효율적으로 NGS 기술을 이용할 수 있다.

최근 후생유전학 분야에서 히스톤 post-translational modifications (PTM)의 위치나 genome-wide DNA 메틸화(Methylation) 패턴을 분석하기 위해 Chromatin Immunoprecipitation (ChIP)을 마이크로어레이 기술(ChIP-chip)에 적용한 연구 결과들과 함께 NGS 기술을 이용한 ChIP-Seq 결과들도 다수 보고되고 있다. 특히 질환 관련 연구에서 각 환자의 개인차를 고려하였을 때 sample size와 함께 비용의 문제가 대두되며, 난치병 극복을 위해서 는 RNA-Seq, ChIP-Seq 등의 방법들이 현재보다 저비용으로 많은 연구자들이 활용할 수 있어야 한다.

2.4. 암유전체프로젝트(cancer genome project)

복합질병에 대한 유전체 분석과 함께 현재 NGS 기술이 가장 효율적으로 적용되기 위해 다양한 시도가 진행되고 있는 분야가 난치병인 암과 관련된 프로젝트일 것 이 다 . The Cancer Genome Atlas(TCGA)는 Baylor 의대, Broad Institute와 Washington 대학의 게놈센터를 중심으로 마이크로어레이 기술을 중심으로 시작되었지만 현재는 Exon 시퀀싱이 추가되어 수백명의 뇌, 폐, 유방암 환자들의 암게놈프로젝트(Cancer Genome Project )를 진행하고 있다.

또한 2008년 4월에 주요 암의 게놈 이상(변이) 카탈로그를 작성하기 위한“국제 암게놈 컨소시엄”(International Cancer Genome Consortium: ICGC)이 발족되었다(Stratton MR et al., 2009). 세계 10개국이상의 다기관이 참가하여 임상적인 기준 하에 선택된 수십 종의 암에 대하여 10,000명 이상의 암환자의 시퀀싱을 목표로 하고 있으며 이는 암의 예방이나 진단은 물론 새로운 치료법과 신약 개발을 위해 매우 중요한 프로젝트가 될 것으로 예상된다.

그러나 일본과 중국이 위암과 간암의 시퀀싱 부분을 담당하였지만 아직 우리 나라의 어느 그룹도 공식적으로 국제 암게놈 프로젝트 ICGC에 참여하지 못하고 있는 실정이다. ICGC에서도 시퀀싱 비용을 고려하여 Exome 시퀀싱을 목표로 출발하였지만, 급속한 시퀀싱 비용의 저하로 수만명의 암환자의 게놈 시퀀싱을 계획하고 있다.

3. 차세대 생물정보학

현재 NGS 데이터 분석에서 가장 중요한 단계는 시퀀스 데이터를 레퍼런스에 맵핑하는 것이다. BLAST와 같은 툴은 NGS 데이터에 적용하기에는 계산 시간이 너무 긴 문제점이 있다. NGS 데이터 분석을 위해 ELAND2, MAQ, BOWTIE, SOAP2, BWA 등 매우 다양한 분석방법들이 개 발 되 었 고 , 이 중에 BWT (Burrows-Wheeler Transformation) 알고리즘을 사용하는 툴의 경우(BOWTIE, SOAP2, BWA)에는 일반적으로 BLAST에 비해 수백~수만배의 속도로 맵핑이 가능하게 되었다.

어노테이션 정보와 함께 생성된 테라급 데이터를 분석하기 위해서는 많은 스토리지가 필요하며, 생물정보학적 툴의 개발이 필요하다. 시퀀싱 데이터 분석을 위해 크게 Alignment를 직접적으로 분석하면서 얻어지는 SNP, MNP, Short InDel 등 정보와 Paired-end 시퀀싱 Alignment에서 Alignment를 찾을 수 없는 Unpaired Alignment를 이용하여 얻어지는 각종 Long deletion 및 Structural Variation (Inversion, Translocation)을 생각할 수 있다. 또한 Coverage를 기반으로 계산이 가능한 CNV (Copy Number Variation)가 있다.

이렇게 얻어진 각종 변이(Variation) 데이터들은 기존에 이미 알려진 DB인 dbSNP, DGV, HGMD 등과 비교하거나 이미 알려진 유전자 구조 정보를 활용함으로써 좀더 유용한 정보를 얻을 수 있다. 계산 시간을 단축시키거나 효율을 높이기 위해서는 게놈 시퀀싱 데이터의 read 길이에 따라 다양한 소프트웨어를 조합하여 활용하는 방안을 모색하는 것도 필요하다. Hybridization 기술과 NGS 기술의 조합에 의한 타겟 시퀀싱의 경우에도 위에서 기술한 각종 생물정보학 알고리즘 및 도구 개발에 의해서 분석이 가능하나, 특정한 부분만을 선별해서 분석을 해야 하므로 데이터 분석에 주의하여야 한다.

NGS의 Short read Alignment 도구에 대한 비교분석과 런닝 시간(그림 2)에 대한 비교분석의 정보는
--------------------------------------------------------------------------------

인간 게놈해독 연구 발전사

2003 Human Genome Project - 27억 달러 (13년)
2007 J. Craig Vender - 1억달러 4년
2008 Jameds Watson    100만 달러 4개월
2008 요루바 아프리카인 게놈 해독 - 25만 달러 2개월
2009 한국인 게놈 해독 - Genome Research (2009.5.26)
2009 Nature Biotechnology (8월 10일) - 4만 8천 달러 4주
2009 Science - Complete Genome 사의 제3세대 시퀀서 최초 활용 예 (11월 5일) 4,400 달러
2010 Glenn Close (럴리우드 여배우) - 4만8천 달러
   Illumina' Personal Genome Sequencing Service (2010.3.11)
   최초의 여성 게놈해독, 최초의 과학자가 아닌 유명인 게놈해독
2010 Charcot-Marie-Tooth disease 원인유전자 연구 - 5만 달러
2010 Miller Syndrome & PCD (Primary Cilliary Dyskinesia, 원발성섬모 이상운동증) 원인유전자 연구 - 어린이 환자 2명을 포함한 가족 4명을 시퀀싱 - 2만5천 달러
http://iiai.blog.me/104289212

조현찬 chohc@hallym.or.kr

다른기사 보기

상단영역

본문영역

차세대 시퀀싱 (Next Generation Sequencing, NGS)

개의 댓글

댓글 정렬

내 댓글 모음