- 인문학을 빅데이터로 분석할 수 있다는 저자들 (에레즈 에이든 & 장바티스트 미셸)
- 모든 도서를 디지털화(化) 꿈꾸는 야심찬 구글 연구자들의 기록

빅데이터 인문학 : 진격의 서막


종종 출판사에서 신간 안내를 해달라고 책을 보내오는 경우가 있습니다. 더러는 신간 안내를 해야겠으니 책을 보내달라는 경우도 있지요. 하지만 이 책은 ‘인문학’ 범주에 속해 있어 출판사가 따로 책을 보내주지도, 또 보내달라고 요구하지도 않았습니다. 신문 등의 신간안내를 보고 구매하게 책 중 하나입니다.

그런데 왜 글까지 쓰게됐느냐. 이 책은 필요로 하는 분들에게 읽히면 유익하지만 그렇지 않은 분들에게는 냄비 받침으로 쓰이기 딱 좋은 책이거든요. 제대로 알고 구매를 하시기를 바라면서 몇자 적어봅니다.

이 책은, 아주 젊고 똑똑한 젊은 연구자들이 구글에 들어가 거대한 디지털 도서관을 만드는 프로젝트에서 겪은 이야기를 담고 있습니다. 구글을 창립한 래리 페이지는 대학시절부터 사이버 공간에 도서관을 구상해 왔고, 지금은 꿈같은 상상을 현실로 추진하고 있습니다.

도서관 프로젝트란 것은 매우 단순한 일입니다. 모든 서적들을 스캔하고 디지털화 하는 작업이죠. 정교한 스캐너와 문자인식프로그램(OCR), 그리고 최종 확인할 인력만 있으면 됩니다. 현재 구글은 3,000만권 이상의 책을 디지털화 했다고 합니다. 세계 최대 규모의 도서관을 갖고 있는 셈이죠.

이렇게 디지털화 된 도서는 단순히 ‘온라인에서 책으로 팔리거나 빌릴 수 있다’는 것 외에도 연구에 활용될 수 있습니다. 언제부터 미국(The United States) 뒤에 붙는 Be 동사를 복수인 are에서 단수 형태인 is를 썼는지 같은 사소한 것도 데이터 분석을 통해 알 수 있습니다.

또 상당수의 불규칙 동사들이 언제부터 규칙성을 가지고 과거형을 쓰게 됐는지도 알 수 있죠. 90년 전 뉴욕타임즈에 ‘빌리 버스티드의 시대에 번성했던 도박장들(Gamblng Halls Throve in Billy Busteed's Day)'란 제목의 기사가 실렸다고 합니다. 여기서 주목해야할 단어는 번성했다(Thrive)의 과거형인 Throve입니다. 하지만 2009년 뉴욕타임즈에 실린 ‘대멸종 이후 번성했던 일부 연체동물들(Some Mollusks Thrived After a Mass Extriction)'이란 기사를 보면 Throve 대신 Thrived를 쓴 것을 볼 수 있습니다. 이렇게 시간이 지나면서 규칙성을 갖게 됐다는 것이죠.

‘죄다 영어 이야기네’, ‘그래서 어쩌라고..’, ‘빅데이터 얘기는 언제나와?’

그렇습니다. 이 책의 가장 큰 단점은 ‘영어’를 잘 모르는 사람들에게는 무슨 말인지 이해하기도 힘듭니다. 대부분의 사례가 영어단어의 변천을 다루고 있기 때문이죠. 게다가 빅데이터 이야기 책 곳곳에 사례로 들어있는 것과 부록에 끼워져 있는 것이 전부입니다. 뭔가 빅데이터 분석에 대한 책인 줄 알고 구매하시면 실망할 가능성도 매우 큽니다.

그럼에도 불구하고 ‘빅데이터 인문학 : 진격의 서막’은 디지털화 된 도서들이 가져올 수 있는 굉장히 큰 변화를 간접 경험할 수 있게 해준다는 면에서 큰 매력이 있습니다. 또 우리나라의 도서들도 이런 변화를 겪게 됐을 때 어떤 연구가 가능한지도 짐작할 수 있는 측면이 있습니다.

그 뿐 아니라 이제 살아가면서 누구나 남기게 되는 디지털 부스러기를 한데 모아, 빅데이터를 분석하는 것도 가능한 시대입니다. 미래에는 역사의 흔적들을 데이터 분석으로 연구하게 될지 누가 압니까.

이런 측면에서 본다면 ‘빅데이터 인문학’은 긍정적입니다. 하지만 단순히 인문학적 소양을 넓히기 위해 이 책을 구매하신 다면 실망하실 수도 있습니다. 그럴 목적이라면 차라리 ‘지적 대화를 위한 넓고 얕은 지식’과 같은 책이 더 만족스러울 수도 있습니다.
저작권자 © 코리아헬스로그 무단전재 및 재배포 금지