[MLOps ν”Œλž«νΌ Observability & Data Pipeline - 검증]

🧭 λͺ©μ°¨ ꡬ뢄 증λͺ… 포인트 A. Observability λ©”νŠΈλ¦­Β·λ‘œκ·ΈΒ·μ•ŒλžŒ dev/prod μ™„μ „ 뢄리 B. FastAPI & Platform Observability FastAPI + Platform λŒ€μ‹œλ³΄λ“œ 정상 λ™μž‘ C. Data Pipeline Rawβ†’Feature ETL μžλ™ μ‹€ν–‰ 성곡 D. Data Pipeline Advanced λ²„μ „Β·μŠ€ν‚€λ§ˆΒ·λ©”νƒ€λ°μ΄ν„°Β·κ΄€μΈ‘ λ“± μš΄μ˜ν˜• ꡬ쑰 A. Observability 계측 Observability 계측(λͺ¨λ‹ˆν„°λ§ + 둜그 μˆ˜μ§‘ + μ•ŒλžŒ)이 GitOps 기반으둜 dev/prod μ™„μ „ 뢄리 + μžλ™ν™” λ˜μ–΄ μžˆμŒμ„ 증λͺ…ν•©λ‹ˆλ‹€. 1️⃣ ArgoCD Applications (GitOps 기반 ꡬ성) βœ” 1-1. CLI둜 전체 Application μƒνƒœ 확인 kubectl -n argocd get applications ...

November 30, 2025 Β· 11 min

[MLOps ν”Œλž«νΌ Observability & Data Pipeline - μ—ν•„λ‘œκ·Έ]

μ—ν•„λ‘œκ·Έ β€” β€œκ΄€μΈ‘Β·μ•Œλ¦ΌΒ·λ°μ΄ν„°κΉŒμ§€ ν•œ λ²ˆμ— μ΄μ–΄μ§€λŠ” MLOps 운영 ν”Œλž«νΌβ€ πŸ“Œ 전체 경둜 μš”μ•½ μˆœμ„œ 주제 1 πŸ”— kube-prometheus-stack + GitOps ꡬ좕 2 πŸ”— Alertmanager Slack & νŠΈλŸ¬λΈ”μŠˆνŒ… 3 πŸ”— Prometheus/KSM/Kubelet μ™„μ „ 뢄리 ꡬ쑰 4 πŸ”— Loki/Promtail 둜그 νŒŒμ΄ν”„λΌμΈ ꡬ좕 5 πŸ”— 운영 쀑 λ°œμƒν•œ μ‹€μ œ 이슈 & ν•΄κ²° κ³Όμ • 6 πŸ”— FastAPI Observability Dashboard & Alert Library 7 πŸ”— Data Pipeline ꡬ좕 8 πŸ”— Data Pipeline 고도화 9 πŸ”— 검증 🎯 전체 회고 μš”μ•½ 단계 핡심 λͺ©ν‘œ μ£Όμš” κ°œμ„ μ  1 λͺ¨λ‹ˆν„°λ§ λΌˆλŒ€ ꡬ좕 kube-prometheus-stack dev/prod μ™„μ „ 뢄리 2 Slack μ•ŒλžŒ 톡합 Alertmanager configSecret ν‘œμ€€ν™” + μ•ŒλžŒ λΌμš°νŒ… 3 λ©”νŠΈλ¦­ ꡐ차 μˆ˜μ§‘ 제거 KSM/Kubelet 라벨 톡일, Prometheus TSDB local-path 4 둜그 νŒŒμ΄ν”„λΌμΈ μ™„μ„± Loki/Promtail dev/prod 뢄리 + LogQL Range Query 5 μ‹€μ œ 운영 이슈 ν•΄κ²° 라벨/Secret/NFS κΆŒν•œ/NFS unmount 문제 일괄 ν•΄κ²° 6 FastAPI/Platform κ΄€μΈ‘ λŒ€μ‹œλ³΄λ“œ FastAPI μ„œλΉ„μŠ€ + Kubernetes/Node ν”Œλž«νΌ κ΄€μΈ‘ 체계 μ™„μ„± 7 Data Pipeline ꡬ좕 (v1) S3 Raw β†’ Feature ETL μžλ™ν™” (Airflow DAG) 8 Data Pipeline 고도화 (v2) λ²„μ „Β·μŠ€ν‚€λ§ˆΒ·λ©”νƒ€λ°μ΄ν„° μžλ™ν™” + κ΄€μΈ‘ λŒ€μ‹œλ³΄λ“œ 9 검증 Observability 계측, Grafana λŒ€μ‹œλ³΄λ“œ, Datapipeline πŸ”„ 핡심 λ¬Έμž₯: ...

November 20, 2025 Β· 3 min

[MLOps ν”Œλž«νΌ Observability & Data Pipeline - 8단계 : Data Pipeline 고도화]

이 κΈ€μ—μ„œ λ‹€λ£¨λŠ” 것 κΈ°μ‘΄ v1 데이터 νŒŒμ΄ν”„λΌμΈμ— 버전 디렉터리 ꡬ쑰, schema.json, metadata.json, KST νƒ€μž„λΌμΈμ„ μ–Ήμ–΄ ML Feature Store에 κ°€κΉŒμš΄ v2 νŒŒμ΄ν”„λΌμΈμœΌλ‘œ κ³ λ„ν™”ν•œ κ³Όμ • μ„ μˆ˜μ§€μ‹ Observability 7단계: Data Pipeline ꡬ좕 이 λ‹¨κ³„μ—μ„œ ν•΄κ²°ν•˜λ €λŠ” 문제 이전 λ‹¨κ³„μ—μ„œ S3 Rawμ—μ„œ Feature CSVκΉŒμ§€ λ™μž‘ν•˜λŠ” μ—”λ“œνˆ¬μ—”λ“œ 데이터 νŒŒμ΄ν”„λΌμΈ(v1)을 λ§Œλ“€μ—ˆλ‹€. ν•˜μ§€λ§Œ 싀무 ML ν”Œλž«νΌ μž…μž₯μ—μ„œλŠ” β€œκ·Έλ•Œ κ·Έ μ‹€ν–‰μ—μ„œ μ–΄λ–€ 데이터λ₯Ό, μ–΄λ–€ ν’ˆμ§ˆλ‘œ, μ–΄λŠ 버전에 μ €μž₯ν–ˆλŠ”μ§€"κ°€ μ‹œκ°„/버전/μŠ€ν‚€λ§ˆ/λ©”νƒ€λ°μ΄ν„°κΉŒμ§€ ν•œ λ²ˆμ— 남아야 ν•œλ‹€. 이번 λ‹¨κ³„μ—μ„œλŠ” κΈ°μ‘΄ v1 νŒŒμ΄ν”„λΌμΈμ„ 버리지 μ•Šκ³ , κ·Έ μœ„μ— 버전 디렉터리 ꡬ쑰 + schema.json + metadata.json + KST νƒ€μž„λΌμΈμ„ μ–Ήμ–΄ μ‹€μ œ ML Feature Store에 더 κ°€κΉŒμš΄ v2 νŒŒμ΄ν”„λΌμΈμœΌλ‘œ κ³ λ„ν™”ν–ˆλ‹€. ...

November 15, 2025 Β· 6 min

[MLOps ν”Œλž«νΌ Observability & Data Pipeline - 7단계 : Data Pipeline ꡬ좕]

이 κΈ€μ—μ„œ λ‹€λ£¨λŠ” 것 S3 Raw 데이터λ₯Ό Airflow DAG둜 μΆ”μΆœ/검증/가곡/μ €μž₯ν•˜λŠ” μ—”λ“œνˆ¬μ—”λ“œ 데이터 νŒŒμ΄ν”„λΌμΈμ„ κ΅¬μΆ•ν•˜μ—¬ ML ν•™μŠ΅ μžλ™ν™”μ˜ 데이터 λ ˆμ΄μ–΄λ₯Ό ν™•λ³΄ν•œ κ³Όμ • μ„ μˆ˜μ§€μ‹ Observability 6단계: FastAPI Dashboard & Alert Library 이 λ‹¨κ³„μ—μ„œ ν•΄κ²°ν•˜λ €λŠ” 문제 λͺ¨λΈμ˜ μ„±λŠ₯은 κ²°κ΅­ 데이터 ν’ˆμ§ˆμ—μ„œ κ²°μ •λœλ‹€. 그런데 데이터λ₯Ό μ–΄λ–»κ²Œ μΆ”μΆœν•˜κ³ , κ²€μ¦ν•˜κ³ , κ°€κ³΅ν•˜κ³ , μ €μž₯ν•˜λŠ”μ§€κΉŒμ§€ μžλ™ν™”ν•˜μ§€ μ•ŠμœΌλ©΄ MLOpsλŠ” μ™„μ„±λ˜μ§€ μ•ŠλŠ”λ‹€. 이번 λ‹¨κ³„μ—μ„œλŠ” Raw S3μ—μ„œ μ „μ²˜λ¦¬, Feature 생성, μ €μž₯κΉŒμ§€ μ΄μ–΄μ§€λŠ” μ—”λ“œνˆ¬μ—”λ“œ 데이터 νŒŒμ΄ν”„λΌμΈμ„ 직접 ꡬ좕해 이후 MLflow ν•™μŠ΅ μžλ™ν™”μ™€ λ°”λ‘œ 연결될 데이터 λ ˆμ΄μ–΄λ₯Ό λ‹€μ‘Œλ‹€. ...

November 10, 2025 Β· 3 min