반응형

데이터 3

데이터 레이크(Data Lake) 구조란?

> 아이오크롭스에 합류하면서 개발적으로 가장 큰 변화는 데이터라고 할 수 있다. 15000평의 스마트팜들의 센서에서 오는 데이터들을 가공, 학습을 해야하기 때문에 데이터 양이 기존에 개발했던 B2B 서비스와 견줄 수 없을 정도로 많아졌기 때문인데 이에 내가 처음으로 직접 접한 것이 Data Lake 구조이다. 이에 공부할 겸 아래와 같이 정리한다. 쉽게 이야기하면 그렇다. Data Lake와 보통 비교되는 것이 기존의 개념, Data Warehouse인데 Data Warehouse는 정말 창고에 넣는 것 처럼 해당 물건(Data)을 정해진 섹터, 카테고리의 몇 층의 공간에 보관을 하는 구조였다면 Data Lake는 호수에 물을 버리듯 그냥 정해진 규칙, 형식 없이 전부 다 저장해버리고 관리를 하겠다는 것..

데이터 2022.08.23

[용어 정리] Scale up, Scale out, Data Partitioning, Data Sharding

[성능 향상 관련 용어] Scale up : 단일 머신(machine)에 CPU, 디스크 등을 추가해서 성능을 향상하는 방법 > 클라우드 서비스에서도 사용되며 이 경우 하나의더 큰 규모로 늘리는 것을 의미 Scale Out : 적절한 성능의 머신을 추가해서 전체적인 성능을 향상하는 방법으로 소프트웨어가 scale out을 지원해야 가능 [데이터 처리, 저장 방법] Data Partitioning : 대량의 데이터를 처리하기 위해 DBMS 안에서 분할하는 방식. 한 대의 DBMS만 있으면 된다. Partitioning 방법 Horizontal Partitioning : 데이터 갯수 기준으로 나누어 Partitioning하는 방법으로 사실상 Sharding이 여기에 들어간다고 볼 수 있음. 같은 테이블 스키..

데이터 2021.11.23

MYSQL 성능 최적화 책 시작

DB 성능 최적화 스터디 시작하면서 어떤 목차를 다루고 공부할지 정리하고 스터디 계획 짬 ~ 현재 회사 개발에 가장 밀접한 내용을 위주로 다루려고 선정함 (마스터, 슬레이브는 아직 개발하지 않아서 내용에서 제외) MYSQL 아키텍처 (1~32) : MySQL의 아키텍쳐와 스토리지 엔진에 대한 내용을 다루고 있으며 트랜잭션을 비롯한 RDBMS의 기본에 대해 다룬다. 병목지점 찾기 (35~89) : 벤치마킹과 프로파일링 : 서버의 작업량이나 처리 속도에 대해 판단할 때 영향을 주는 요소에 대한 이야기로 주요 변경 전후에 application을 벤치마크해서 변경 사항이 얼마나 효과적인지 판단해야 하는데 변경 사항이 부정적인 영향을 주는지 긍정적인 영향을 주는지에 대해 측정하는 법을 다룬다. 벤치마칭 (35~6..

데이터 2021.05.09
반응형