SeungHo, Choi | Data Engineer

SeungHo, Choi

Data Engineer

@ Neowiz

About Me

데이터가 잘 흐르고 다양하게 활용 될 수 있도록 꿈꾸고 실현하는 5년차 데이터 엔지니어 최승호입니다.

어떻게 하면 안정적인 데이터 파이프라인을 구축할 지,
어떻게 하면 비용효율적으로 데이터 플랫폼을 구성할 지,
어떻게 하면 데이터 분석에 집중할 수 있는 환경을 제공할 지
지속적으로 고민하고 테스트하고 도입하는 데이터 엔지니어입니다.

데이터를 통해 인사이트를 낼 수 있다고 생각하며 그 가치가 무궁무진하다고 믿습니다.
조직이 공통된 목표를 향해 나아갈 수 있도록 중간에서 커뮤니케이션하며 업무를 진행하여 인사이트를 내는데 도움이 되기를 희망합니다.

Experience

Data Engineer

Neowiz

2020.07 - Present

실시간(CDC) 데이터 파이프라인 구축 및 데이터 웨어하우스 운영

🔄 15개 이상 다양한 데이터 소스 통합 및 일 10억건+ CDC ETL 구축
📊 Redshift 멀티클러스터 아키텍처 설계로 성능 병목 해결 및 데이터 매쉬 구조 초석 마련
🏗️ 멀티클라우드(AWS ↔ GCP)간 일 4000만건+ 실시간 데이터 파이프라인 구축
🧊 Trino와 Iceberg를 활용한 데이터 레이크 아키텍처 설계 및 구축
⚡ 자동화 및 모니터링 시스템으로 운영 리소스 90% 절감
💰 인프라 비용 최적화로 고정비용 20%($3,000+) 절감
🤖 LLM 기반 Text-to-SQL 시스템으로 데이터 추출 요청 40% 감소

Projects

AWS 멀티 클러스터 아키텍처 도입 (GAMES ON AWS 2024 발표)

2024.01 - 2024.06

단일 Redshift 클러스터의 성능 병목을 해결하기 위한 멀티클러스터 아키텍처 설계 및 구축. Redshift Serverless 및 Concurrency Scaling 도입으로 비용 최적화와 성능 향상을 동시에 달성

✨ AWS 크레딧 $34K 확보 ✨ GAMES ON AWS 2024 발표

Amazon Redshift Redshift Serverless WLM Concurrency Scaling

Multi-Cloud Real-time Data Pipeline (AWS ↔ GCP)

2022.12 - 2023.05

AWS DMS CDC, Lambda, SQS를 활용하여 RDS Aurora의 데이터를 Google BigQuery로 준실시간 이동하는 멀티클라우드 파이프라인 구축. 일 4,000만 건 데이터 처리로 실시간 분석 및 FDS 지원

✨ 일 4,000만 건 데이터 처리 ✨ 99.9% 데이터 정합성

AWS DMS AWS Lambda SQS Google BigQuery +2

Trino on ECS 기반 DataLake 플랫폼

2023.08 - 2024.01

Trino를 AWS ECS에 배포하여 다양한 데이터 소스를 통합 쿼리할 수 있는 DataLake 환경 구축. Apache Iceberg 테이블 포맷을 활용한 원본 데이터 확인 및 Federated Query 플랫폼 제공

✨ ECS 기반 Federated Query Engine ✨ Iceberg 테이블 포맷

Trino AWS ECS Apache Iceberg S3 Lifecycle +2

스트리밍 데이터 수집

2025.01 - 2025.05

Amazon MSK와 DynamoDB에서 생성되는 스트리밍 데이터 수집 및 처리 플랫폼 구축. 실시간 이벤트 스트림 처리와 반정형 데이터 처리

✨ 실시간 이벤트 스트림 처리 ✨ 반정형 데이터 처리

Amazon MSK DynamoDB Streams MSK Connect AWS Lambda +1

LLM 기반 Text-to-SQL 시스템

2024.01 - 2024.04

LangChain과 OpenAI GPT를 활용한 자연어 기반 SQL 생성 시스템 구축. 비개발자도 쉽게 데이터 조회가 가능하도록 하여 데이터 추출 요청을 감소시킨 솔루션

✨ 데이터 추출 요청 30% 감소 ✨ 자연어 → SQL 변환

OpenAI GPT LangChain Chainlit FastAPI +2

인프라 운영 및 모니터링 시스템

2021.01 -

IaC 기반 인프라 관리와 종합적인 모니터링 시스템 구축. Terraform과 Serverless Framework를 통한 인프라 코드화 및 비용 최적화 자동화 시스템 도입

✨ IaC 기반 인프라 관리 ✨ DW 운영 대시보드

Terraform Serverless Framework Grafana CloudWatch +1

다양한 데이터 소스 통합

2021.01 -

ElasticSearch, Google/Apple 마켓, Prometheus, Redis, SensorTower 등 15개 이상의 다양한 외부 데이터 소스를 안정적으로 수집하는 ETL 구축

✨ 15개 이상 데이터 소스 ✨ 마켓 데이터 수집

Prefect ElasticSearch Redis Prometheus +2

기타 프로젝트

2020.07 -

Snowflake PoC, 마케팅 비용 관리 사이트 개발, 외부 API 구축, 공용 라이브러리 개발, ML(첫 구매자 예측, 이탈자 예측) 관련 배포 다양한 프로젝트 수행 및 조직 내 데이터 문화 확산

✨ Snowflake PoC 수행 ✨ 마케팅 비용 관리 사이트 개발

Snowflake AI/ML Python FastAPI +1

Technical Expertise

Specialties

Real-time(CDC) Data Pipeline Multi-cloud Architecture Cost Optimization

Cloud Platforms

AWS GCP

Data Engineering

Prefect Apache Kafka Trino

Data Warehouse

Redshift BigQuery Snowflake

Databases

MySQL PostgreSQL DynamoDB ElasticSearch Redis

Programming

Python SQL Java

Infrastructure

Terraform Docker ECS Grafana

AI/ML

LangChain Langfuse RedshiftML SageMaker OpenAI GPT

Let's Connect

데이터 엔지니어링에 대해 이야기하고 싶으시다면 언제든 연락주세요!

Email LinkedIn GitHub

Sunbelt Computer Software

PL/B Language Development and Support

SeungHo, Choi

About Me

Experience

Data Engineer

Projects

AWS 멀티 클러스터 아키텍처 도입 (GAMES ON AWS 2024 발표)

Multi-Cloud Real-time Data Pipeline (AWS ↔ GCP)

Trino on ECS 기반 DataLake 플랫폼

스트리밍 데이터 수집

LLM 기반 Text-to-SQL 시스템

인프라 운영 및 모니터링 시스템

다양한 데이터 소스 통합

기타 프로젝트

Technical Expertise

Specialties

Cloud Platforms

Data Engineering

Data Warehouse

Databases

Programming

Infrastructure

AI/ML

Let's Connect