데이터

데이터 레이크(Data Lake) 구조란?

민초부 2022. 8. 23. 16:58
반응형

> 아이오크롭스에 합류하면서 개발적으로 가장 큰 변화는 데이터라고 할 수 있다. 15000평의 스마트팜들의 센서에서 오는 데이터들을 가공, 학습을 해야하기 때문에 데이터 양이 기존에 개발했던 B2B 서비스와 견줄 수 없을 정도로 많아졌기 때문인데 이에 내가 처음으로 직접 접한 것이 Data Lake 구조이다. 이에 공부할 겸 아래와 같이 정리한다.

 

 

<데이터 레이크, Data Lake>

  • 쉽게 이야기하면 그렇다. Data Lake와 보통 비교되는 것이 기존의 개념, Data Warehouse인데 Data Warehouse는 정말 창고에 넣는 것 처럼 해당 물건(Data)을 정해진 섹터, 카테고리의 몇 층의 공간에 보관을 하는 구조였다면 Data Lake는 호수에 물을 버리듯 그냥 정해진 규칙, 형식 없이 전부 다 저장해버리고 관리를 하겠다는 것임.
  • 이러한 개념이기 때문에 잘못된 Data Lake를 데이터 늪(Data Swamp)이라 부른다. 즉 붓기만 하고 관리되지 않으면 호수가 아닌 늪이 되어 안에 뭐가 들었는지 알지도 못 하고 꺼낼 수도 없는 상태가 된다는 것.
  • Data Lake 구조의 예시는 아래와 같다. Aurora, DynamoDB와 같이 DB별로 각각 관리하는게 아니라 그냥 Data Lake에 원시 형태로 일단 저장하고 나중에 이를 사용할 때 데이터에 형태와 구조를 부여하여 사용(읽기 스키마)하면 된다. 

AWS에서 추천하는 Data Lake Architecture

  • 즉 같은 데이터에 대해서도 서비스 혹은 repository에 따라서 원하는 형식이 전부 다르기 때문에 이를 하나하나 맞춰주기 보다는 Data Lake의 Open format, 다양한 형태의 데이터를 보관하고 상황에 맞는 툴을 사용하면 된다.

 

장점과 단점은 각각 있으나 사실 구글링하면 바로 나오고 당연한 내용들이라 듣기만 하고 넘어감 

 

<Reference>

- AWS Data Conference > 혼자서도 안전하고 간단하게 우리 회사 Data Lake 구축하기 - AWS LakeFormation

반응형