Day3에 이어서 Interpretome을 이용하여 자신의 genome을 분석하는 시간이다. 이번에는 Clinical과 Ancestry 기능으로 우선 Ancestry 기능을 위주로 살펴보도록 하겠다.

관련글:

1,000개의 SNP를 가지고 비교한 결과 난 87.738%로 Stuart와 제일 유사



PCA
유사성이 개인 간에 같은 genome 정보를 얼마나 공유하는지를 보는 것이었다면, PCA는 각 인종을 대표하는 Reference Panel을 X,Y의 2차원적인 그래프에 표시하는 방법이다. 여기에서도 IBS 값을 사용하며, 각 사람의 IBS 값을 대표하는 값을 추출하게 된다. 이렇게 다양한 차원의 값(IBS)을 차원축소를 수행하는데, 대표적인 방법이 PCA라는 방법이다. 즉 (1,2,2,3........3) -> (X,Y,Z)의 형태로 왼쪽의 다양한 값을 오른쪽의 X(PC1),Y(PC2),Z(PC3)처럼 간단하게 만드는 것이다. X(PC1)는 왼쪽의 값들을 가장 많이 대표할 수 있는 값이며, Y(PC2)는 그 다음 ... 그중에서 X,Y의 두 개의 값을 통해 2차원적으로 표시하는 것이다.




HGDP, HapMap은 각 인종의 데이터를 모아 놓은 Reference Panel로 기존에 알려진 이러한 Reference내에서 자신의 위치를 표시해준다




빨간색 점이 자신의 위치로 East Asian들 사이에 있는 것을 확인할 수 있다. PC1의 값이 약 -7로 수많은 자신의 genotype 데이터를 설명하는데에 PC1의 대표성은 5.45%, PC2의 대표성은 3.88%이다.


X,Y축을 PC1,PC2,PC3 등으로 변경해 보면서 또는 Reference Panel을 다양하게 변경해보면서 자신의 위치를 확인해 볼 수 있으며, 3차원적으로 표시해서 보면 좀 더 분명하게 자신의 위치를 확인 가능하다.


Ancestry Painting
마지막은 염색체별로 Ancestry 정보를 색칠해주는 것으로, 염색체를 작은 Block으로 나누어 해당 Block이 어느 인종과 유사한지를 확인해서 painting 해주는 것이다. 각 인종이 염색체의 어느 한 부분이 평균적으로 아프리카인의 경우 "AAAAAA", 아시아인은 "AAABBB", 유럽인은 "BBBBBB"이라고 할 경우 자신이 그 Block이 "AABBBB"라면 아시아인과 가장 유사하기 때문에 그 부분을 아시아인의 색인 초록색으로 표시하는 것이다. Block의 크기를 작게 하면 할수록 좀 더 세밀하게 분석된 모습을 볼 수 있겠지만, Block이 작을수록 노이즈가 섞일 가능성이 많아지게 된다.



전체적으로 난 CHB+JPT(중국인+일본인)


이상으로 자신의 인종적인 정보를 다양한 방법으로 살펴보았다. 보시면서 느끼겠지만 Reference 인종에 대한 자세한 정보가 존재할수록 좀 더 자신의 유전정보를 확실하게 알 수 있다. 하지만, 아쉽게도 이러한 Reference로 많이 사용되는 HapMap이나 HGDP 등의 프로젝트에 한국인은 빠져 있기 때문에 좀 아쉬운 면이 있기는 하다. 

저작권자 © 코리아헬스로그 무단전재 및 재배포 금지