Colossus와 Capacitor: BigQuery를 지탱하는 Storage의 구조
들어가며 BigQuery의 Performance는 단순히 좋은 Query Engine 하나로 만들어지지 않았다. 그 아래에는 Google이 20년 넘게 진화시켜 온 Infrastructure Stack이 있다. Colossus: Exabyte 규모의 Distributed File System Capacitor: Compressed 상태에서 직접 Query할 수 있는 Columnar Format Jupiter: 13 Petabits/sec Bandwidth의 Data Center Network Dremel: Tree 구조 병렬 Execution Engine Borg: 수만 대 Machine의 Cluster Management System 이 글에서는 이 중 Colossus와 Capacitor에 집중한다. BigQuery에서 Query를 실행하면, 실제 데이터는 어디에 어떻게 저장되어 있고, 어떤 원리로 읽히는지 구조적으로 살펴본다. ...