AWS | Novemberde's Blog

Amazon Redshift의 내부 Architecture: ParAccel에서 Serverless까지

용어 사전 이 글에서 자주 등장하는 핵심 용어를 먼저 정리한다. 용어 설명 MPP (Massively Parallel Processing) 다수의 Node가 Query를 분할하여 동시에 처리하는 Architecture Leader Node Client 요청을 받아 SQL Parsing, Query Planning, Code Generation을 수행하고 결과를 집계하는 Coordinator Compute Node 실제 데이터를 저장하고 Query Segment를 병렬 실행하는 Worker Node Slice Compute Node 내부의 병렬 처리 단위. 독립적인 CPU, Memory, Disk Partition을 가짐 RMS (Redshift Managed Storage) S3 기반 Tiered Storage. Local SSD Cache + S3 Cold Storage로 구성 AQUA (Advanced Query Accelerator) Storage Layer에서 FPGA/Nitro Processor로 Filtering과 Aggregation을 사전 수행하는 가속기 Zone Map 각 1MB Block의 Min/Max 값을 Memory에 보관하는 Metadata. Block Skipping에 사용 AZ64 Amazon이 자체 개발한 SIMD 기반 Compression Algorithm. Numeric/Date Type에 특화 WLM (Workload Management) Query Queue별 Memory, Concurrency Slot을 배분하는 Resource Management 시스템 ATO (Automatic Table Optimization) Query Pattern을 분석하여 Distribution Key/Sort Key를 자동 최적화하는 AI 기반 기능 RPU (Redshift Processing Unit) Redshift Serverless의 Compute 단위. 1 RPU = 16GB Memory Concurrency Scaling Workload 급증 시 Transient Cluster를 자동 추가하여 Throughput을 확장하는 기능 SQA (Short Query Acceleration) 짧은 Query를 전용 Queue(Service Class 14)에서 우선 실행하여 긴 Query에 Block되지 않게 하는 기능 MVCC (Multi-Version Concurrency Control) 각 Transaction이 데이터의 Snapshot을 기반으로 동작하여 Read/Write Blocking을 최소화하는 동시성 제어 들어가며 Amazon Redshift는 2012년 re:Invent에서 발표되어 2013년 2월 15일 GA(General Availability)된 이후, Cloud Data Warehouse 시장의 판도를 바꾸어 놓았다. 2025년 기준 수만 개의 조직이 Petabyte 규모의 데이터를 Redshift 위에서 분석하고 있다. ...

BigQuery vs Redshift: Cloud Data Warehouse 선택을 위한 비교

용어 사전 이 글에서 자주 등장하는 핵심 용어를 먼저 정리한다. 용어 설명 MPP (Massively Parallel Processing) 다수의 Node가 Query를 분할하여 동시에 처리하는 Architecture Slot BigQuery의 Compute 단위. 가상 CPU + Memory + I/O를 추상화한 Resource Unit RPU (Redshift Processing Unit) Redshift Serverless의 Compute 단위. 1 RPU = 16GB Memory Columnar Storage 데이터를 Row가 아닌 Column 단위로 저장하는 방식. 분석 Query에서 필요한 Column만 읽어 I/O 절감 Distribution Key Redshift에서 데이터를 Node 간에 분산하는 기준 Column. JOIN Performance에 직접 영향 Sort Key Redshift에서 데이터를 디스크에 물리적으로 정렬하는 기준 Column. Filter Performance에 직접 영향 Partitioning BigQuery에서 Table을 날짜/정수 범위 등으로 논리 분할. Scan 범위를 제한하여 비용과 속도 모두 개선 Clustering BigQuery에서 Partition 내 데이터를 특정 Column 기준으로 정렬. 최대 4개 Column 지정 가능 WLM (Workload Management) Redshift의 Query Queue 관리 시스템. Query 종류별 Memory/Concurrency 배분 ATO (Automatic Table Optimization) Redshift가 Query Pattern을 분석하여 Distribution Key/Sort Key를 자동 최적화하는 기능 Zero-ETL Source Database → Data Warehouse로 데이터를 ETL Pipeline 없이 자동 복제하는 기능 Dry Run BigQuery에서 Query를 실행하지 않고 Scan량과 예상 비용만 미리 확인하는 기능. 무료 AQUA (Advanced Query Accelerator) Redshift RA3 Node에서 Storage Layer의 AWS 전용 Processor/FPGA로 사전 Filtering/Aggregation을 수행하는 가속기 Materialized View Query 결과를 사전 계산하여 저장한 View. 반복 Query의 속도를 크게 개선 BI Engine BigQuery의 In-memory Analysis Layer. Sub-second Response로 Dashboard를 가속 들어가며 Cloud Data Warehouse를 선택하는 일은 단순한 기술 비교가 아니다. 조직의 데이터 전략, 운영 문화, 그리고 장기적인 Cloud Roadmap에 깊이 관여하는 의사결정이다. ...

AWS Hero가 선정한 2025년 클라우드 트렌드와 신규 서비스 - AWS re:Invent reCap 온라인 콘퍼런스

“AWS Hero가 선정한 2025년 클라우드 트렌드와 신규 서비스 - AWS re:Invent reCap 온라인 콘퍼런스” 에서 공유한 내용을 정리했다. Youtube Summary 주요 발표 내용 기본 빌딩 블록 강화: AWS는 컴퓨팅, 스토리지, 데이터베이스와 같은 기본적인 클라우드 서비스에 더욱 집중하는 모습을 보였습니다. 특히, 4세대 Graviton 칩을 예고하며 데이터베이스 및 웹 애플리케이션 구동 시 성능 향상을 강조했습니다. Amazon S3 테이블 기능 추가로 4K 데이터 처리를 위한 기능이 개선되었고, 글로벌 애플리케이션을 위한 멀티 리전 액티브-액티브 DB가 다수 발표되었습니다. ...

AWS Unified Studio 살펴보기

들어가며: 왜 통합 ML 플랫폼인가 머신러닝 플랫폼을 구축하고 운영하다 보면 공통적으로 마주치는 문제들이 있다. 데이터 엔지니어는 Athena와 Glue를 사용하고, ML 엔지니어는 SageMaker를 사용하며, 애플리케이션 개발자는 Bedrock을 사용한다. 각 팀은 서로 다른 도구와 워크플로우를 가지고 있고, 이는 협업의 마찰을 증가시킨다. 더 근본적인 문제는 도구의 파편화가 조직의 인지 부하를 증가시킨다는 점이다. 새로운 팀원이 합류하면 여러 콘솔을 배워야 하고, 권한 관리는 서비스마다 다른 방식으로 이루어지며, 비용 추적은 복잡하고 불투명하다. Amazon SageMaker Unified Studio는 이러한 문제에 대한 AWS의 답이다. 단순히 UI를 통합한 것이 아니라, 데이터-AI-ML의 전체 라이프사이클을 하나의 일관된 추상화로 제공하려는 시도다. ...

AWS EBS, FSx, EFS for EC2: Storage Comparison (2024)

개요 ML Data platform engineering에서 Feature Store의 성능을 개선하기 위해 storage 옵션들을 검토하고 있다. Remote cache만으로는 network latency 문제가 있어서, disk storage를 활용하면 더 빠른 데이터 접근이 가능할 것으로 기대된다. 이 글에서는 AWS EC2에서 사용할 수 있는 주요 storage 옵션들을 비교 분석한다: Storage 최적화 EC2 인스턴스: 로컬에 직접 연결된 NVMe SSD로 최고의 I/O 성능 제공 EBS (Elastic Block Store): EC2에 연결되는 블록 스토리지로 높은 IOPS와 처리량 지원 FSx: 완전 관리형 파일 시스템으로 여러 EC2 인스턴스에서 공유 가능 EFS (Elastic File System): 완전 관리형 NFS 파일시스템으로 자동 확장/축소 지원 AWS EC2의 Storage 최적화 인스턴스 대용량 데이터셋에 대한 고성능 읽기/쓰기 작업이 필요한 워크로드를 위해 설계되었다. ...

2024 AWS Serverless Computing 종류 정리

1. Computing & Application AWS Lambda 소개: 이벤트 기반의 서버리스 컴퓨팅 서비스 해결문제: 짧은 실행 시간의 작업, 이벤트 처리, API 요청 처리 대체서비스: EC2, ECS, EKS 규모: 최소: 128MB 메모리, 실행시간 제한 15분 최대: 10GB 메모리, 동시실행 1000개 (증설 가능) AWS Fargate 소개: 컨테이너화된 애플리케이션을 위한 서버리스 컴퓨팅 엔진 해결문제: 컨테이너 운영에 따른 서버 관리 부담 제거 대체서비스: ECS/EKS with EC2 규모: 최소: vCPU 0.25개, 메모리 0.5GB 최대: vCPU 16개, 메모리 120GB 2. Integration & Orchestration ...

2200만 사용자를 위한 채팅 시스템 아키텍처

채팅은 맨 처음 입사하고 나서 맡은 프로젝트였고, 지금까지도 운영하고 개선하는 서비스이다. 처음에 Ruby on rails 로 개발하던 환경에서 처음으로 시작한 마이크로서비스다. 시작할 때의 고민과 그리고 지금까지의 달려온 여정에서 어떠한 결정을 했는지 고민이 담긴 발표였다. 영상 References https://youtu.be/lCxgddyxDyg https://summits-korea.virtual.awsevents.com/media/01.%202200%EB%A7%8C%20%EC%82%AC%EC%9A%A9%EC%9E%90%EB%A5%BC%20%EC%9C%84%ED%95%9C%20%EC%B1%84%ED%8C%85%20%EC%8B%9C%EC%8A%A4%ED%85%9C%20%EC%95%84%ED%82%A4%ED%85%8D%EC%B2%98/1_ybuscua9 2200만_사용자를_위한_채팅_시스템_아키텍처.pdf https://byline.network/2022/05/0512-2/

Athena & Step Functions 로 통계 파이프라인 구축하기

보통 Airflow 와 EMR 조합으로 통계 파이프라인을 관리하곤 한다. 사내에서 빠르게 통계를 구축하고 관리하기 위해 불필요한 인프라 관리를 제외하고 pipeline에 대해서만 집중할 수 있도록 step functions를 도입하고, 이 경험에 대해서 공유해보았다. Youtube Slides Athena & Step Function 으로 통계 파이프라인 구축하기 - 변규현 (당근마켓) :: AWS Community Day Online 2021 from AWSKRUG - AWS한국사용자모임 References https://youtu.be/MS7CulWSc2g https://www.slideshare.net/awskr/athena-step-function-aws-community-day-online-2021

AWS re:Invent Recap For Data analyst

AWS re:Invent 2020 에서 새로 출시한 AWS Glue DataBrew라는 서비스를 살펴보고, 기존의 Data engineer의 역할을 DataBrew로 어떻게 대체할 수 있는지 설명한다. 마지막으로 DataBrew를 통해 코드 한 줄 없이 ETL을 하는 과정을 데모로 확인한다. Slide Share 데이터 분석가를 위한 AWS 신규 서비스 소개 - 변규현 SW 엔지니어, 당근마켓 from Amazon Web Services Korea Youtube Reference AWS re:Invent recap 2020 행사 링크 https://pages.awscloud.com/aws-reinvent-recap-kr-reg.html

RDS PostgreSQL에서 Aurora PostgreSQL Migration 하기

RDS PostgreSQL에서 Aurora PostgreSQL을 도입한 후기 Presentation RDS에서 Aurora PostgreSQL Migration한 후기 from Kyuhyun Byun Youtube Reference AWS Community Day 2020 소개 링크 https://pages.awscloud.com/aws-community-day-online-2020.html