ETL 기술 스택 정리
2025년 12월 기준으로 작성하였습니다.
데이터 파이프라인 구축 시 참고할 수 있는 최신 기술 스택 총정리
데이터 파이프라인을 구축하다 보면 정말 다양한 도구와 라이브러리들을 접하게 됩니다. 2025년 현재, AI/ML의 발전과 함께 ETL 생태계도 빠르게 진화하고 있습니다.
이 글에서는 Extract, Transform, Load 각 단계에서 활용할 수 있는 최신 기술들을 정리하고, 실무에서 어떤 기술을 선택해야 하는지 가이드를 제공합니다.
1. Extract - 데이터 추출
1.1 웹 크롤링/스크래핑
🔧 HTTP 클라이언트 라이브러리
| 이름 | 언어 | 설명 | 용도 |
| requests | Python | 가장 널리 쓰이는 HTTP 라이브러리 | 정적 페이지 요청 |
| httpx | Python | 비동기 지원 HTTP 클라이언트 | 대량 병렬 요청 |
| aiohttp | Python | 비동기 HTTP 클라이언트/서버 | 고성능 비동기 크롤링 |
| axios | Node.js | Promise 기반 HTTP 클라이언트 | JS 환경 요청 |
🌐 헤드리스 브라우저 (2025.12)
| 이름 | 설명 | 장점 | 성능 |
| ⭐ Playwright | MS 개발, 현대적 | 35-40% 더 빠름, WebSocket 기반 | 페이지 로드 1.8초 |
| Puppeteer | Google 개발, Chrome 전용 | 빠름, 널리 사용됨 | 페이지 로드 2.2초 |
| Selenium | 가장 오래된 자동화 도구 | 다양한 언어/브라우저 지원 | 페이지 로드 2.7초 |
💡 2025년 권장:
• 동적 사이트 크롤링 → Playwright
• 레거시 브라우저 지원 → Selenium
• 순수 속도 → requests/httpx
1.2 데이터베이스 연결
🗄️ 관계형 DB 드라이버/ORM
| 이름 | 언어 | 대상 DB | 설명 |
| psycopg3 | Python | PostgreSQL | PostgreSQL 최신 드라이버 |
| mysql-connector | Python | MySQL | MySQL 공식 드라이버 |
| SQLAlchemy | Python | 다중 | ORM + 쿼리 빌더 |
| Prisma | Node.js | 다중 | 현대적 ORM |
2. Transform - 데이터 변환
2.1 이미지 처리
🤖 딥러닝 기반 이미지 분석 (2025.12)
| 이름 | 개발사 | 설명 | 용도 |
| SAM 2 | Meta | 차세대 이미지/비디오 세그멘테이션 | 객체 분할, 마스크 생성 |
| YOLO v11 | Ultralytics | 최신 실시간 객체 탐지 | 객체 감지, 분류 |
| CLIP | OpenAI | 이미지-텍스트 연결 모델 | 이미지 임베딩 |
2.2 OCR (광학 문자 인식) - 2025.12
📝 전통 OCR 엔진
| 이름 | 개발사 | 설명 | 강점 |
| Tesseract 5 | 가장 널리 쓰이는 OCR | 100+ 언어, 무료 | |
| EasyOCR | JaidedAI | 딥러닝 기반 OCR | 80+ 언어, 설치 쉬움 |
| PaddleOCR | Baidu | 고성능 다국어 OCR | 높은 정확도, 중/영 최강 |
🚀 2025년 신규 OCR 모델
| 이름 | 개발사 | 설명 | 특징 |
| ⭐ Surya | VikParuchuri | 차세대 OCR 툴킷 | Tesseract보다 빠름, 90+ 언어 |
| MiniCPM-o-2.6 | OpenBMB | 경량 멀티모달 OCR | 8B 파라미터, 1.8M 픽셀 |
| Moondream2 | vikhyatk | 소형 비전-언어 모델 | 2B 이하, OCRBench 61.2점 |
| Donut | Clova AI | Transformer 기반 문서 이해 | End-to-end, 레이아웃 이해 |
💡 2025년 권장:
• 일반 문서 → PaddleOCR, Surya
• 손글씨 → TrOCR, Moondream2
• 프로덕션 → AWS Textract, Google Vision
2.3 임베딩 모델 (2025년 최신)
📝 텍스트 임베딩 - SOTA 모델
| 이름 | 개발사 | 차원 | 특징 | MTEB 순위 |
| ⭐ Qwen3-Embedding-8B | Alibaba | 가변 | 다국어 최강, 100+ 언어 | 1위 |
| NV-Embed-v2 | NVIDIA | 4096 | Llama 3.1 기반 | 2위 |
| BGE-M3 | BAAI | 1024 | Multi-Func/Lang/Granularity | 3위 |
🌐 멀티모달 임베딩 (2025 신규)
| 이름 | 개발사 | 특징 |
| ⭐ BGE-VL | BAAI | 이미지+텍스트, MIT 라이선스, 상용 가능 |
| CLIP | OpenAI | 범용 멀티모달 |
| LLaVA-NeXT | Microsoft | 차세대 비전-언어 모델 |
💡 2025년 권장:
• 다국어 RAG → Qwen3-Embedding-8B, BGE-M3
• 경량/엣지 → EmbeddingGemma-300M
• 멀티모달 → BGE-VL, CLIP
3. Load - 데이터 적재
3.1 벡터 데이터베이스 (2025년 최신)
🔮 전용 벡터 DB - 성능 비교
| 이름 | 유형 | 특징 | 성능 | 가격 |
| Pinecone | 관리형 SaaS | 완전 관리형, 서버리스 | 상위권 | $25/월~ |
| ⭐ Milvus/Zilliz Cloud | OSS/관리형 | 최고 성능, GPU 지원 | 1위 (저지연) | 무료~$99/월 |
| Qdrant | OSS/관리형 | Rust 기반, 강력한 필터링 | 2위 | 무료 1GB, $25/월~ |
| Chroma | 오픈소스 | 경량, 개발 친화적 | 중간 | 무료 |
🔌 벡터 지원 확장 (2025)
| 이름 | 기반 DB | 설명 | 성능 |
| pgvector | PostgreSQL | PG 확장, 471 QPS @ 50M 벡터 | 우수 |
| ⭐ OpenSearch kNN 3.0 | OpenSearch | 9.5배 성능 향상 (2025년 5월) | 상위권 |
| Elasticsearch kNN | Elasticsearch | ES 벡터 검색 | 우수 |
💡 2025년 권장:
• 프로덕션 (관리형) → Pinecone, Zilliz Cloud
• 오픈소스 → Qdrant (필터링), Milvus (성능)
• 기존 DB 활용 → pgvector, OpenSearch kNN
• 프로토타입 → Chroma
3.2 데이터 웨어하우스
| 이름 | 유형 | 특징 | 용도 |
| Snowflake | 클라우드 | 자동 확장, 데이터 공유 | 분석, ML |
| BigQuery | GCP | 서버리스, 저렴 | GCP 분석 |
| Databricks | 클라우드 | Spark 기반, 레이크하우스 | ML, 분석 |
| ClickHouse | 오픈소스 | 초고속 OLAP | 실시간 분석 |
4. 워크플로우 오케스트레이션 (2025년 현황)
| 이름 | 유형 | 특징 | 2025년 현황 |
| ⭐ Apache Airflow 3.0 | 오픈소스 | DAG 기반, 최대 생태계 | 3.0 출시 (2025.04): 이벤트 기반, 8천만 다운로드 |
| Dagster | 오픈소스/클라우드 | 데이터 자산 중심 | Components GA (2025.10), 리니지 강력 |
| Prefect | 오픈소스/클라우드 | 현대적, Python 친화적 | Incidents 기능 추가, Python 3.10+ |
| ⭐ Kestra | 오픈소스 | 선언적 YAML | 2025년 급성장 중 |
💡 2025년 선택 가이드:
• 기업 표준/성숙도 → Airflow 3.0
• 데이터 리니지/품질 → Dagster
• 개발자 경험/속도 → Prefect
• 선언적 워크플로우 → Kestra
📋 2025년 주요 변화점
🔥 핫한 신기술
- Playwright 완전 우위 - Selenium 대비 35-40% 빠름
- Airflow 3.0 출시 - 이벤트 기반 워크플로우
- OCR 혁명 - Surya, MiniCPM-o 등 Transformer 기반
- 벡터 DB 성능 경쟁 - OpenSearch kNN 3.0 (9.5배 향상)
- 임베딩 모델 - Qwen3-Embedding-8B (MTEB 1위)
- Polars 급부상 - pandas보다 10배 빠른 DataFrame
🏗️ 권장 기술 스택
🚀 스타트업/중소규모
Extract:
• 웹: Playwright (동적) + requests (정적)
• DB: SQLAlchemy + pymongo
Transform:
• 이미지: Pillow + YOLO v11
• OCR: PaddleOCR or EasyOCR
• 임베딩: BGE-M3
Load:
• DB: PostgreSQL + Redis
• 벡터: Qdrant or Chroma
• 검색: MeiliSearch
Workflow: Prefect or Kestra
🏢 엔터프라이즈/대규모
Extract:
• 웹: Scrapy + Playwright + Kafka
• DB: SQLAlchemy + CDC (Debezium)
• API: LiteLLM
Transform:
• 이미지: OpenCV + SAM 2
• OCR: Surya + AWS Textract
• 임베딩: Qwen3-Embedding-8B
• 처리: Polars + Dask
Load:
• DB: PostgreSQL (pgvector) + MongoDB
• 벡터: Milvus/Zilliz Cloud
• 검색: Elasticsearch
• DW: Snowflake or Databricks
Workflow: Airflow 3.0 or Dagster
Container: Kubernetes + Helm
🎯 선택 가이드 요약
| 우선순위 | 선택 기준 |
| 속도/성능 | Playwright, Polars, Milvus, Qwen3-Embedding |
| 안정성/성숙도 | Airflow 3.0, PostgreSQL, Elasticsearch |
| 개발 속도 | Prefect, FastAPI, Chroma |
| 비용 효율 | 오픈소스 (Qdrant, OpenSearch, Dagster) |
| 확장성 | Kafka, Kubernetes, Snowflake, Pinecone |
| 다국어 | BGE-M3, Qwen3-Embedding, PaddleOCR |
마치며
2025년 ETL 생태계는 AI 네이티브 도구들의 약진이 눈에 띕니다.
주요 트렌드:
• Playwright가 웹 크롤링의 새로운 표준
• Transformer 기반 OCR 모델들의 대거 등장
• 멀티모달 임베딩(BGE-VL)의 실용화
• 벡터 DB 성능 경쟁 심화
• 워크플로우 도구 성숙화
기술 선택은 프로젝트 규모, 팀 역량, 예산에 맞춰야 합니다.
이 문서가 여러분의 데이터 파이프라인 구축에 나침반이 되길 바랍니다! 🚀
피드백 환영: 실무 경험과 최신 정보를 댓글로 공유해주세요!