Coding Planet

[데이터허브] 데이터 레이크(Data Lake) 본문

카테고리 없음

[데이터허브] 데이터 레이크(Data Lake)

jhj.sharon 2024. 1. 9. 16:18
반응형

 

 

1. 데이터 레이크란?

데이터 레이크는 모든 규모의 정형, 비정형 및 비정형 데이터를 저장할 수 있는 중앙 집중식 리포지토리입니다. 먼저 데이터를 구조화하지 않고도 데이터를 있는 그대로 저장할 수 있고(원시 데이터, raw data) 대시보드 및 시각화에서 빅 데이터 처리, 실시간 분석, 기계 학습에 이르기까지 다양한 유형의 분석을 실행하여 더 나은 의사 결정을 내릴 수 있도록 안내합니다.

 

원시 데이터란 데이터를 특정 목적을 위해 처리(스키마)하지 않고 원래 그대로 형태 그대로 저장한다는 뜻이다.

종류 형태 연산가능
정형 데이터 O O 엑셀’ 같은 스프레드시트에 저장되는 형태, 수치, 기호, 도형 등
반정형 데이터 O X  메일 등 통신 내용 기록 같은 로그 등
비정형 데이터 X X 인터넷 댓글, 영상, 음성 등

 

2. 데이터 레이크가 필요한 이유는?

부서별, 분야별로 흩어진 데이터를 중앙식 리포지토리에 한 데 모아 분석하면 기업이 보유한 데이터를 최대한 활용해서 회사차원(companywide)에서 데이터를 활용할 수 있다.

 

반응형
Comments