시장조사전문업체 가트너가 2013년 주목할 만한 기술로 꼽은 10대 전략기술은 크게 "모바일, 빅데이터, 클라우드" 3가지 키워드로 압축된다. 데이브 시어리 가트너 수석부사장 겸 가트너 펠로우는 "이제 PC가 아닌 모바일에 주목할 때"라며, "모바일에서 발생한 데이터를 저장하는 공간으로 퍼스널 클라우드가, 모바일 기기에서발생한 데이터를 분석하기 위해선 빅데이터 분석이 중요해졌다"라고 설명했다.
올해 가트너가 꼽은 2013년 전략기술은
- 모바일대전
- 모바일 앱 & HTML5
- 퍼스널 클라우드
- 만물인터넷
- 하이브리드IT&클라우드 컴퓨팅
- 전략적 빅데이터
- 실용분석
- 인메모리 컴퓨팅
- 통합 생태계
- 엔터프라이즈 앱스토어 등이다.
2012년 빅데이터가 얘기가 빠지지 않았다. 2013년도 마찬가지다. 다른점이 있다면 단순히 소셜 데이터를 긁어모아 고객데이터와 결합해 결과를 바라보기보다는 하둡과 같은 NoSQL을 통해 비정형 데이터 그 자체를 분석하는 게 중요해졌다. 가트너는 기업의 데이터웨어하우스(DW)는 죽었다며, 새로운 데이터 분석 기술을 결합해 빅데이터 시대를 맞이할 필요가 있다고 주장했다.
이 책은 머하웃의 핵심 개념인 추천엔진, 군집, 분류를 알기 쉽게 기술하고 있다. 머하웃에 대한 개념을 다루다 보니 기계학습이나 빅데이터를 처음 접하는 독자에게는 많은 선수 지식이 필요하다. 기계 학습(machine learning)의 선수지식으로는 베이즈 정리가 있다. 베이즈 정리는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리로, 베이지안 확률론 해석에 따르면 베이즈 정리는 새로운 근거가 제시될 때 사후 확률이 어떻게 갱신되는지를 구한다. 그 외의 선수 지식은 책에서 일부 다루고 있다.
이 책의 장ㆍ단점은 다음과 같다.
장점
1. 다양한 실전 예제의 사용으로 데이터를 분석
2. 추천엔진의 다양한 응용
3. 레거시 시스템과 머하웃 시스템의 응용 사례
4. 부록(성능향상, 수학, 머하웃 History)
단점
1. 하둡 및 기계학습에 대한 정보 부족
2. 책의 범위를 벗어나는 정보에 대한 참고 정보 부재
이 책에서는 머하웃에 대해서만 다루어지다 보니 하둡에 대해서는 깊이 있는 내용을 다루지는 않는다는 아쉬움이 남는다. 하지만 빅데이터를 활용하여 추천ㆍ군집ㆍ분류 기능을 제공하고 싶은 개발자, 인공지능ㆍ기계학습 분야의 핵심 연구자나 이를 배우고 싶은 학생, 빅테이터를 효율적으로 관리하려는 기술 기획자가 읽어 보기에는 좋은 책이다.