Hadoop, R, and NoSQL 간단히 정리

Hadoop 이란?

검색엔진에서 사용하는 대용량데이터 처리분석 오픈소스 프로젝트.

큰 규모의 분산 컴퓨팅 환경에서 대량의 파일을 처리할 수 있는 프레임워크.

구글의 분산 파일 시스템인 GFS(Google File System)과 분산데이터베이스인 빅테이블(Big Table)을 바탕으로 개발된 오픈소스 기반의 분산컴퓨팅 플랫폼.

구성 : 대용량 데이터를 저장하고 처리하기 위한 HDFS(Hadoop Distributed FIle System)

데이터베이스 역학을 하는 Hbase 가 있음.

Hadoop core , HBase, Pig, ZooKeeper, Hive

동향 : 삼성 SDS가 하둡전문업체인 미국클라우데라라는 업체와 협력한다는 MOU 체결

Cloud computing 이란?

업체들의 기술 종속성에서 벗어난 서비스 개념.

공유된(Shared) 인프라에서

필요할 때마다 자원을 제공받을 수 있는 온디맨드 (On demand) 형태로 구성되며,

쉽게 구현할 수 있어야 하고(Configurable)

필요한 시점에 빠르게 자원을 가져오는(Rapidly provisioned) 것은 물론

최소한의 관리(Minimal management)가 가능한 것이 핵심.

R이란?

통계 컴퓨팅과 그래픽을 위한 오픈소스 프로그래밍언어이자 소프트웨어 환경.

R language는 통계전문가들에게 사실상의 표준이 되었고, 통계소프트웨어에서 범용적으로 사용된다.

GNU프로젝트의 일부분으로써 오픈소스프로젝트를 서포트한다.

R UNIX 플랫폼, Windows, MacOS 등에서 콤파일되고 운영된다.

NoSQL 이란?

대용량으로 읽고 쓰는 서비스들에서 관계형데이터베이스의 제약요소들로 인해

속도와 확장성의 문제가 대두되어,

그러한 요소를 쉽게 해결하기 위해 만들어낸

빠른 속도와 무제한에 가까운 확장성을 가진 새로운 DB

페이스북이나 트위터와 같은 소셜서비스에 적합한 DB

Advertisements

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중