HK Chun, ScD | Senior Data Scientist | Healthcare/Financial Analytics | CDC | NLP & MLOps
이 저장소는 데이터 사이언티스트 취업 준비 를 위한 실무 프로젝트, 기술 스킬, 면접 준비 자료를 체계적으로 정리한 포트폴리오입니다.
🔗 Live Portfolio Demo
1. 📊 Large Data Reconciliation (SAS)
항목
내용
Problem
금융 트랜잭션 20M+ 레코드 정합성 검증에 8시간+ 소요
Solution
SAS Hash Objects + 데이터 파티셔닝 + 병렬 처리
Tech Stack
SAS 9.4, Hash Objects, PROC SQL, Macro
Result
✅ 처리 시간 70% 단축 , 오류 탐지율 99.7%
┌─────────────────────────────────────────────────────────────┐
│ Before: 8+ hours ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │
│ After: 2.4 hours ━━━━━━━━━━━ │
│ Improvement: 70% ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓░░░░░░░░░░ │
└─────────────────────────────────────────────────────────────┘
2. 🔍 API Glitch Detector (Python)
항목
내용
Problem
API 장애 탐지 시간 45분, 비즈니스 손실 발생
Solution
Isolation Forest + 시계열 패턴 분석 + 실시간 모니터링
Tech Stack
Python, scikit-learn, pandas, numpy
Result
✅ 예측 정확도 92% , MTTR 85% 단축
┌─────────────────────────────────────────────────────────────┐
│ Detection Accuracy: 92% ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓░░ │
│ MTTR Reduction: 85% ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓░░░ │
│ False Positive Rate: 3% ░▓░░░░░░░░░░░░░░░░░░ │
└─────────────────────────────────────────────────────────────┘
3. 🦠 COVID-19 Surveillance Pipeline (CDC)
항목
내용
Problem
COVID-19 확산 추이 예측 및 실시간 모니터링 필요
Solution
PySpark + Azure ML + NLP 파이프라인
Tech Stack
Databricks, Azure ML, HuggingFace, PySpark
Result
✅ 예측 정확도 94% , 데이터 지연 92% 단축
Processing Time Reduction ████████████████████░░░░ 70%
Error Detection Rate ████████████████████████ 99.7%
Prediction Accuracy ██████████████████░░░░░░ 92%
MTTR Improvement █████████████████░░░░░░░ 85%
Data Latency Reduction ██████████████████████░░ 92%
JobPractice/
│
├── 📊 Data_Analysis_Examples/ # 실무 프로젝트 코드
│ ├── large_data_reconciliation.sas # SAS 대용량 데이터 처리
│ ├── api_glitch_detector.py # Python 이상 탐지
│ └── README.md # 프로젝트 상세 설명
│
├── 🛠️ .skills/ # 기술 스킬 가이드
│ ├── sas-large-data/ # SAS Hash Objects, 파티셔닝
│ ├── python-data-pipeline/ # ETL, pandas 최적화
│ ├── interview-prep/ # 기술 면접 준비
│ ├── project-presentation/ # 5C 프레임워크
│ └── star-method/ # STAR 행동 면접
│
├── ⚙️ .claude/ # Claude Code 설정
│ ├── agents/ # 9개 특화 에이전트
│ ├── commands/ # 슬래시 명령어
│ ├── hooks/ # 자동화 훅
│ └── mcp-configs/ # 15개 MCP 서버
│
├── 🌐 portfolio/ # GitHub Pages 포트폴리오
│ └── index.html
│
└── 📷 images/ # 시각화 자료
└── results_chart.svg
Component
Description
S ituation
상황 설명 - 배경과 맥락
T ask
과제 - 해결해야 할 문제
A ction
행동 - 내가 취한 구체적 조치
R esult
결과 - 정량적 성과와 영향
5C Framework (Project Presentation)
Component
Description
C ontext
프로젝트 배경과 비즈니스 문제
C hallenge
기술적/비즈니스적 도전 과제
C hoice
선택한 접근 방식과 이유
C ode
기술 구현 및 아키텍처
C onsequence
결과, 영향, 학습한 점
Made with ❤️ by HeeKyoung Chun