벌써 몇 년 전부터 데이터 쓰나미라는 표현이 딱 들어맞는 일들이 생명공학 분야에서 일어나고 있다. 그때마다 도마 위에 올라오는 이야기는 바로 그리드, 클러스터, 슈퍼컴퓨터, 클라우드라는 단어들이었고 이러한 하드웨어와 맞물려서 MapReduce와 HDFS™의 기반의 Hadoop이 언급되었다. 아니 지금도 다들 바이오인포매틱스에는 하둡이 필요하다고 말하고 있다. 하지만 Hadoop은 하나의 플랫폼으로 이를 실무에서 사용하기에는 하드웨어 및 이에 따른 설정이 그리 쉽지만은 않은 상황이다.

요즘 누구나 다 바이오인포매틱스와 Genomics에 불을 켜고 마치 가로등에 나방들을 보고 있는 것 같은 상황에서 변변한 Hadoop 플랫폼 하나 제공하고 있지 못하는 국내의 현실을 보면 그저 안타까울 뿐이다. 특히나 의사결정을 하는 분들을 꼬시기(?)에는 아직은 시기상조인지 아니면 꼬드김의 내공이 부족한 것인지? 암튼 오늘은 그러한 꼬임에 도장을 찍어주는 기사를 하나 소개하려고 한다. 바로 CTO들에게 기술에 대한 정보를 제공하는 CTOvision.com이라는 곳에서 바로 Hadoop for Bioinformaitcs라는 기사를 실은 것이다. 이러한 기사 하나가 얼마나 큰 힘이 될지는 모르겠지만 말이다. (^.^;;)


바이오인포매틱스 분야의 Hadoop 전망


바이오인포매틱스(Bioinformaics)

바이오인포매틱스는 통계와 분자 생물학 분석으로 부터 유래한 컴퓨터 과학 분야의 하나의 응용이라고 볼 수 있다. 근래에 바이오인포매틱스는 유전체 분석에 걸림돌들을 돌파하는 데에 핵심적인 역할을 하고 있다. 요즘엔 광의의 바이오인포매틱스라는 정의는 온데간데없고 바이오인포매틱스=컴퓨터를 이용한 유전체 분석이라는 등식을 통용화 시키고 있다. 이는 특히 다른 생물학 분야보다 현재 기술이나 연구의 성과들(가시적인 미래를 포함한)이 근시일안에 우리의 삶에 밀접한 영향을 줄 수 있기 때문일 것이다. 연구자들은 질병에 대응하거나 개개인에 맞는 맞춤 암 치료를 포함하는 많은 건강 관련 솔루션들에 대해서 연구하고 있으며, 또한 에너지 분야(해조류로 부터 연료 생산)식량생산(더 나은 품종 개량)과 같은 분야와 바이오인포매틱스가 크게 연관되어 있다.

바이오인포매틱스는 근시일안에 이러한 분야에 획기적인 업적을 남길 수 있을 분야임에는 분명하지만, 이러한 바이오인포매틱스의 발전은 엄청난 데이터를 저장하고 분석하는 데에 있어 큰 어려움에 봉착해 있다. 바로 이러한 Big Data는 모든 분야의 과학자들의 도전 과제이다.


인간 유전체(Human Genome)


인간의 유전정보를 저장하고 있는 DNA는 30억 개의 염기로 이루어져 있으며(언뜻 감이 오지 않는다면 잠자기 전에 30억까지만 세어 보자. 1초에 숫자 하나를 센다고 가정한다면 한 사람이 30억까지 세는 데에는 무려 95년의 시간이 소요된다. 전 세계 인구가 70억쯤 되는데 두 사람의 DNA의 염기 하나씩을 떼어서 전 세계 인구에게 나누어 줄 수 있는 길이 이다), 약 6만개정도의 유전자를 가지고 있다. 바로 이러한 데이터를 한명이 아닌 현재로서는 몇 천 명 단위의 연구(국내의 경우 아시안게놈프로젝트와 한국인게놈프로젝트를 통해 몇 백 명 단위의 연구가 진행 중)가 이루어지고 있으니 바이오인포매틱스 분야는 매우 크고 많은 계산을 필요로 하는 분야인 것이다.

바이오인포매틱스 연구자들은 기술 및 장비의 발달(Next Generation Sequencing 기술 및 Next Generation Sequencing 장비)을 통해 얻어진 데이터를 유용한 정보를 얻을 수 있도록 사용 가능한 정보로 가공하여 과학자들이 자신의 영역에서 사용할 수 있도록 제공하고 있다. 그러나 이러한 일련의 과정은 매우 더디게 진행되는데, 일반적으로 DNA Sequencing(30억 DNA를 알기 위해 생체내의 DNA를 우리가 읽을 수 있는 염기 A,T,G,C로 변환하는 작업) 연구실에서는 일주일에 100TB 이상의 데이터 생산이 가능하며 이러한 데이터를 처리하기 위한 유연한 컴퓨팅 파워나 알고리즘이 잘 구축되어 있지 않다.


인간 유전체와 Hadoop

인간이 지닌 6만개의 유전자가 어떠한 단백질을 만들어내며 그 역할을 규명하기 위해 Hadoop의 MapReduce를 통해 클라우드 상의 클러스터에 6만개에 해당하는 가능한 조합을 배분하고 연구자가 알고자 하는 하나의 질의를 던지게 되면 해당 질의에 최적의 해를 빠르게 얻을 수 있게 된다. Hadoop이 바이오인포매틱스에 적용은 2009년도