Coding Planet
[데이터허브] 데이터 레이크(Data Lake) 본문
반응형
1. 데이터 레이크란?
데이터 레이크는 모든 규모의 정형, 비정형 및 비정형 데이터를 저장할 수 있는 중앙 집중식 리포지토리입니다. 먼저 데이터를 구조화하지 않고도 데이터를 있는 그대로 저장할 수 있고(원시 데이터, raw data) 대시보드 및 시각화에서 빅 데이터 처리, 실시간 분석, 기계 학습에 이르기까지 다양한 유형의 분석을 실행하여 더 나은 의사 결정을 내릴 수 있도록 안내합니다.
원시 데이터란 데이터를 특정 목적을 위해 처리(스키마)하지 않고 원래 그대로 형태 그대로 저장한다는 뜻이다.
종류 | 형태 | 연산가능 | 예 |
정형 데이터 | O | O | 엑셀’ 같은 스프레드시트에 저장되는 형태, 수치, 기호, 도형 등 |
반정형 데이터 | O | X | 메일 등 통신 내용 기록 같은 로그 등 |
비정형 데이터 | X | X | 인터넷 댓글, 영상, 음성 등 |
2. 데이터 레이크가 필요한 이유는?
부서별, 분야별로 흩어진 데이터를 중앙식 리포지토리에 한 데 모아 분석하면 기업이 보유한 데이터를 최대한 활용해서 회사차원(companywide)에서 데이터를 활용할 수 있다.
반응형
Comments