Data-Engineering

Amazon Redshift의 내부 Architecture: ParAccel에서 Serverless까지

용어 사전 이 글에서 자주 등장하는 핵심 용어를 먼저 정리한다. 용어 설명 MPP (Massively Parallel Processing) 다수의 Node가 Query를 분할하여 동시에 처리하는 Architecture Leader Node Client 요청을 받아 SQL Parsing, Query Planning, Code Generation을 수행하고 결과를 집계하는 Coordinator Compute Node 실제 데이터를 저장하고 Query Segment를 병렬 실행하는 Worker Node Slice Compute Node 내부의 병렬 처리 단위. 독립적인 CPU, Memory, Disk Partition을 가짐 RMS (Redshift Managed Storage) S3 기반 Tiered Storage. Local SSD Cache + S3 Cold Storage로 구성 AQUA (Advanced Query Accelerator) Storage Layer에서 FPGA/Nitro Processor로 Filtering과 Aggregation을 사전 수행하는 가속기 Zone Map 각 1MB Block의 Min/Max 값을 Memory에 보관하는 Metadata. Block Skipping에 사용 AZ64 Amazon이 자체 개발한 SIMD 기반 Compression Algorithm. Numeric/Date Type에 특화 WLM (Workload Management) Query Queue별 Memory, Concurrency Slot을 배분하는 Resource Management 시스템 ATO (Automatic Table Optimization) Query Pattern을 분석하여 Distribution Key/Sort Key를 자동 최적화하는 AI 기반 기능 RPU (Redshift Processing Unit) Redshift Serverless의 Compute 단위. 1 RPU = 16GB Memory Concurrency Scaling Workload 급증 시 Transient Cluster를 자동 추가하여 Throughput을 확장하는 기능 SQA (Short Query Acceleration) 짧은 Query를 전용 Queue(Service Class 14)에서 우선 실행하여 긴 Query에 Block되지 않게 하는 기능 MVCC (Multi-Version Concurrency Control) 각 Transaction이 데이터의 Snapshot을 기반으로 동작하여 Read/Write Blocking을 최소화하는 동시성 제어 들어가며 Amazon Redshift는 2012년 re:Invent에서 발표되어 2013년 2월 15일 GA(General Availability)된 이후, Cloud Data Warehouse 시장의 판도를 바꾸어 놓았다. 2025년 기준 수만 개의 조직이 Petabyte 규모의 데이터를 Redshift 위에서 분석하고 있다. ...

Colossus와 Capacitor: BigQuery를 지탱하는 Storage의 구조

들어가며 BigQuery의 Performance는 단순히 좋은 Query Engine 하나로 만들어지지 않았다. 그 아래에는 Google이 20년 넘게 진화시켜 온 Infrastructure Stack이 있다. Colossus: Exabyte 규모의 Distributed File System Capacitor: Compressed 상태에서 직접 Query할 수 있는 Columnar Format Jupiter: 13 Petabits/sec Bandwidth의 Data Center Network Dremel: Tree 구조 병렬 Execution Engine Borg: 수만 대 Machine의 Cluster Management System 이 글에서는 이 중 Colossus와 Capacitor에 집중한다. BigQuery에서 Query를 실행하면, 실제 데이터는 어디에 어떻게 저장되어 있고, 어떤 원리로 읽히는지 구조적으로 살펴본다. ...

BigQuery vs Redshift: Cloud Data Warehouse 선택을 위한 비교

용어 사전 이 글에서 자주 등장하는 핵심 용어를 먼저 정리한다. 용어 설명 MPP (Massively Parallel Processing) 다수의 Node가 Query를 분할하여 동시에 처리하는 Architecture Slot BigQuery의 Compute 단위. 가상 CPU + Memory + I/O를 추상화한 Resource Unit RPU (Redshift Processing Unit) Redshift Serverless의 Compute 단위. 1 RPU = 16GB Memory Columnar Storage 데이터를 Row가 아닌 Column 단위로 저장하는 방식. 분석 Query에서 필요한 Column만 읽어 I/O 절감 Distribution Key Redshift에서 데이터를 Node 간에 분산하는 기준 Column. JOIN Performance에 직접 영향 Sort Key Redshift에서 데이터를 디스크에 물리적으로 정렬하는 기준 Column. Filter Performance에 직접 영향 Partitioning BigQuery에서 Table을 날짜/정수 범위 등으로 논리 분할. Scan 범위를 제한하여 비용과 속도 모두 개선 Clustering BigQuery에서 Partition 내 데이터를 특정 Column 기준으로 정렬. 최대 4개 Column 지정 가능 WLM (Workload Management) Redshift의 Query Queue 관리 시스템. Query 종류별 Memory/Concurrency 배분 ATO (Automatic Table Optimization) Redshift가 Query Pattern을 분석하여 Distribution Key/Sort Key를 자동 최적화하는 기능 Zero-ETL Source Database → Data Warehouse로 데이터를 ETL Pipeline 없이 자동 복제하는 기능 Dry Run BigQuery에서 Query를 실행하지 않고 Scan량과 예상 비용만 미리 확인하는 기능. 무료 AQUA (Advanced Query Accelerator) Redshift RA3 Node에서 Storage Layer의 AWS 전용 Processor/FPGA로 사전 Filtering/Aggregation을 수행하는 가속기 Materialized View Query 결과를 사전 계산하여 저장한 View. 반복 Query의 속도를 크게 개선 BI Engine BigQuery의 In-memory Analysis Layer. Sub-second Response로 Dashboard를 가속 들어가며 Cloud Data Warehouse를 선택하는 일은 단순한 기술 비교가 아니다. 조직의 데이터 전략, 운영 문화, 그리고 장기적인 Cloud Roadmap에 깊이 관여하는 의사결정이다. ...