Colossus와 Capacitor: BigQuery를 지탱하는 Storage의 구조

들어가며 BigQuery의 Performance는 단순히 좋은 Query Engine 하나로 만들어지지 않았다. 그 아래에는 Google이 20년 넘게 진화시켜 온 Infrastructure Stack이 있다. Colossus: Exabyte 규모의 Distributed File System Capacitor: Compressed 상태에서 직접 Query할 수 있는 Columnar Format Jupiter: 13 Petabits/sec Bandwidth의 Data Center Network Dremel: Tree 구조 병렬 Execution Engine Borg: 수만 대 Machine의 Cluster Management System 이 글에서는 이 중 Colossus와 Capacitor에 집중한다. BigQuery에서 Query를 실행하면, 실제 데이터는 어디에 어떻게 저장되어 있고, 어떤 원리로 읽히는지 구조적으로 살펴본다. ...

February 9, 2026 7 min

AWS EBS, FSx, EFS for EC2: Storage Comparison (2024)

개요 ML Data platform engineering에서 Feature Store의 성능을 개선하기 위해 storage 옵션들을 검토하고 있다. Remote cache만으로는 network latency 문제가 있어서, disk storage를 활용하면 더 빠른 데이터 접근이 가능할 것으로 기대된다. 이 글에서는 AWS EC2에서 사용할 수 있는 주요 storage 옵션들을 비교 분석한다: Storage 최적화 EC2 인스턴스: 로컬에 직접 연결된 NVMe SSD로 최고의 I/O 성능 제공 EBS (Elastic Block Store): EC2에 연결되는 블록 스토리지로 높은 IOPS와 처리량 지원 FSx: 완전 관리형 파일 시스템으로 여러 EC2 인스턴스에서 공유 가능 EFS (Elastic File System): 완전 관리형 NFS 파일시스템으로 자동 확장/축소 지원 AWS EC2의 Storage 최적화 인스턴스 대용량 데이터셋에 대한 고성능 읽기/쓰기 작업이 필요한 워크로드를 위해 설계되었다. ...

November 15, 2024 9 min