학습 계획 — 클라우드 인프라 엔지니어

포지셔닝 목표

좁게: “클라우드 인프라 엔지니어, AI 서빙 인프라 이해 있음” EKS + Karpenter + ArgoCD 메인 → AI 서빙 인프라는 부가 강점으로

현재 상태 (2026-04-18 기준)

핵심 원칙

Operation Strix에서 설계한 것들을 실제로 구현하고 결과를 문서화. “설계 연구”를 “직접 구현 완료”로 바꾸는 것이 목표.

각 구현마다 “설계 의도 → 실제 결과 → 발생한 문제 → 해결” 패턴으로 기록. Operation Strix docs/ 챕터들을 “설계”에서 “구현 완료”로 업데이트.

도메인	비중	현재 수준
Cluster Architecture, Installation & Configuration	25%	보통
Workloads & Scheduling	15%	양호
Services & Networking	20%	보통
Storage	10%	약함
Troubleshooting	30%	보통

Storage 취약

PV/PVC/StorageClass 개념 실습 추가 필요. EKS에서 EBS CSI Driver 실습으로 병행.

타이밍

Phase 3 완료 + CKA 취득 이후. 지금 손 대면 분산됨.

vLLM on Kubernetes 기본 배포 실습
- Deployment, Service, GPU nodeSelector 설정
- Ollama on K8s (GPU 없이 로컬 CPU 먼저)
GPU NodePool 개념 이해
- Karpenter GPU NodePool 설정 (nvidia.com/gpu resource)
- GPU 인스턴스 타입 (g4dn, g5) 비용 구조 파악

Vertex AI 서빙 인프라 실습 (AI Hypercomputer 배지 기반)
- Model Registry → Endpoint 배포 → 오토스케일링
- GKE + Vertex AI 연동 구조 이해
Cloud Run 인퍼런스 비용 최적화
- min-instances 설정으로 Cold Start 제거 (hamster_locally 경험 연결)

시점	업데이트 내용
Phase 3 완료 후	Operation Strix “설계 연구” → “직접 구현 완료”로 전환
Phase 3 완료 후	이력서 결과 항목에 실제 수치 추가
CKA 취득 후	이력서 자격증 준비 → 취득으로 변경
AI 서빙 실습 후	포트폴리오 슬라이드 12장 (AI 오케스트레이션) 강화

결정 보류 조건

Phase 3 착수 전에 올리면 분산됨. Phase 3 완료 후 판단. 올린다면: .env.example 추가 + README 아키텍처 다이어그램 1개.