Research Notes/Data Engineering

ETL 기술 스택 완벽 정리

m2222n 2025. 12. 26. 17:37

ETL 기술 스택  정리 

2025년 12월 기준으로 작성하였습니다.


데이터 파이프라인 구축 시 참고할 수 있는 최신 기술 스택 총정리

데이터 파이프라인을 구축하다 보면 정말 다양한 도구와 라이브러리들을 접하게 됩니다. 2025년 현재, AI/ML의 발전과 함께 ETL 생태계도 빠르게 진화하고 있습니다.

 

이 글에서는 Extract, Transform, Load 각 단계에서 활용할 수 있는 최신 기술들을 정리하고, 실무에서 어떤 기술을 선택해야 하는지 가이드를 제공합니다.


1. Extract - 데이터 추출

1.1 웹 크롤링/스크래핑

🔧 HTTP 클라이언트 라이브러리

이름 언어 설명 용도
requests Python 가장 널리 쓰이는 HTTP 라이브러리 정적 페이지 요청
httpx Python 비동기 지원 HTTP 클라이언트 대량 병렬 요청
aiohttp Python 비동기 HTTP 클라이언트/서버 고성능 비동기 크롤링
axios Node.js Promise 기반 HTTP 클라이언트 JS 환경 요청

🌐 헤드리스 브라우저 (2025.12)

이름 설명 장점 성능
⭐ Playwright MS 개발, 현대적 35-40% 더 빠름, WebSocket 기반 페이지 로드 1.8초
Puppeteer Google 개발, Chrome 전용 빠름, 널리 사용됨 페이지 로드 2.2초
Selenium 가장 오래된 자동화 도구 다양한 언어/브라우저 지원 페이지 로드 2.7초

💡 2025년 권장:
• 동적 사이트 크롤링 → Playwright
• 레거시 브라우저 지원 → Selenium
• 순수 속도 → requests/httpx


1.2 데이터베이스 연결

🗄️ 관계형 DB 드라이버/ORM

이름 언어 대상 DB 설명
psycopg3 Python PostgreSQL PostgreSQL 최신 드라이버
mysql-connector Python MySQL MySQL 공식 드라이버
SQLAlchemy Python 다중 ORM + 쿼리 빌더
Prisma Node.js 다중 현대적 ORM

2. Transform - 데이터 변환

2.1 이미지 처리

🤖 딥러닝 기반 이미지 분석 (2025.12)

이름 개발사 설명 용도
SAM 2 Meta 차세대 이미지/비디오 세그멘테이션 객체 분할, 마스크 생성
YOLO v11 Ultralytics 최신 실시간 객체 탐지 객체 감지, 분류
CLIP OpenAI 이미지-텍스트 연결 모델 이미지 임베딩

2.2 OCR (광학 문자 인식) -  2025.12

📝 전통 OCR 엔진

이름 개발사 설명 강점
Tesseract 5 Google 가장 널리 쓰이는 OCR 100+ 언어, 무료
EasyOCR JaidedAI 딥러닝 기반 OCR 80+ 언어, 설치 쉬움
PaddleOCR Baidu 고성능 다국어 OCR 높은 정확도, 중/영 최강

🚀 2025년 신규 OCR 모델

이름 개발사 설명 특징
⭐ Surya VikParuchuri 차세대 OCR 툴킷 Tesseract보다 빠름, 90+ 언어
MiniCPM-o-2.6 OpenBMB 경량 멀티모달 OCR 8B 파라미터, 1.8M 픽셀
Moondream2 vikhyatk 소형 비전-언어 모델 2B 이하, OCRBench 61.2점
Donut Clova AI Transformer 기반 문서 이해 End-to-end, 레이아웃 이해

💡 2025년 권장:
• 일반 문서 → PaddleOCR, Surya
• 손글씨 → TrOCR, Moondream2
• 프로덕션 → AWS Textract, Google Vision


2.3 임베딩 모델 (2025년 최신)

📝 텍스트 임베딩 - SOTA 모델

이름 개발사 차원 특징 MTEB 순위
⭐ Qwen3-Embedding-8B Alibaba 가변 다국어 최강, 100+ 언어 1위
NV-Embed-v2 NVIDIA 4096 Llama 3.1 기반 2위
BGE-M3 BAAI 1024 Multi-Func/Lang/Granularity 3위

🌐 멀티모달 임베딩 (2025 신규)

이름 개발사 특징
⭐ BGE-VL BAAI 이미지+텍스트, MIT 라이선스, 상용 가능
CLIP OpenAI 범용 멀티모달
LLaVA-NeXT Microsoft 차세대 비전-언어 모델

💡 2025년 권장:
• 다국어 RAG → Qwen3-Embedding-8B, BGE-M3
• 경량/엣지 → EmbeddingGemma-300M
• 멀티모달 → BGE-VL, CLIP


3. Load - 데이터 적재

3.1 벡터 데이터베이스 (2025년 최신)

🔮 전용 벡터 DB - 성능 비교

이름 유형 특징 성능 가격
Pinecone 관리형 SaaS 완전 관리형, 서버리스 상위권 $25/월~
⭐ Milvus/Zilliz Cloud OSS/관리형 최고 성능, GPU 지원 1위 (저지연) 무료~$99/월
Qdrant OSS/관리형 Rust 기반, 강력한 필터링 2위 무료 1GB, $25/월~
Chroma 오픈소스 경량, 개발 친화적 중간 무료

🔌 벡터 지원 확장 (2025)

이름 기반 DB 설명 성능
pgvector PostgreSQL PG 확장, 471 QPS @ 50M 벡터 우수
⭐ OpenSearch kNN 3.0 OpenSearch 9.5배 성능 향상 (2025년 5월) 상위권
Elasticsearch kNN Elasticsearch ES 벡터 검색 우수

💡 2025년 권장:
• 프로덕션 (관리형) → Pinecone, Zilliz Cloud
• 오픈소스 → Qdrant (필터링), Milvus (성능)
• 기존 DB 활용 → pgvector, OpenSearch kNN
• 프로토타입 → Chroma


3.2 데이터 웨어하우스

이름 유형 특징 용도
Snowflake 클라우드 자동 확장, 데이터 공유 분석, ML
BigQuery GCP 서버리스, 저렴 GCP 분석
Databricks 클라우드 Spark 기반, 레이크하우스 ML, 분석
ClickHouse 오픈소스 초고속 OLAP 실시간 분석

4. 워크플로우 오케스트레이션 (2025년 현황)

이름 유형 특징 2025년 현황
⭐ Apache Airflow 3.0 오픈소스 DAG 기반, 최대 생태계 3.0 출시 (2025.04): 이벤트 기반, 8천만 다운로드
Dagster 오픈소스/클라우드 데이터 자산 중심 Components GA (2025.10), 리니지 강력
Prefect 오픈소스/클라우드 현대적, Python 친화적 Incidents 기능 추가, Python 3.10+
⭐ Kestra 오픈소스 선언적 YAML 2025년 급성장 중

💡 2025년 선택 가이드:
• 기업 표준/성숙도 → Airflow 3.0
• 데이터 리니지/품질 → Dagster
• 개발자 경험/속도 → Prefect
• 선언적 워크플로우 → Kestra


📋 2025년 주요 변화점

🔥 핫한 신기술

  1. Playwright 완전 우위 - Selenium 대비 35-40% 빠름
  2. Airflow 3.0 출시 - 이벤트 기반 워크플로우
  3. OCR 혁명 - Surya, MiniCPM-o 등 Transformer 기반
  4. 벡터 DB 성능 경쟁 - OpenSearch kNN 3.0 (9.5배 향상)
  5. 임베딩 모델 - Qwen3-Embedding-8B (MTEB 1위)
  6. Polars 급부상 - pandas보다 10배 빠른 DataFrame

🏗️ 권장 기술 스택

🚀 스타트업/중소규모

Extract:
• 웹: Playwright (동적) + requests (정적)
• DB: SQLAlchemy + pymongo

Transform:
• 이미지: Pillow + YOLO v11
• OCR: PaddleOCR or EasyOCR
• 임베딩: BGE-M3

Load:
• DB: PostgreSQL + Redis
• 벡터: Qdrant or Chroma
• 검색: MeiliSearch

Workflow: Prefect or Kestra


🏢 엔터프라이즈/대규모

Extract:
• 웹: Scrapy + Playwright + Kafka
• DB: SQLAlchemy + CDC (Debezium)
• API: LiteLLM

Transform:
• 이미지: OpenCV + SAM 2
• OCR: Surya + AWS Textract
• 임베딩: Qwen3-Embedding-8B
• 처리: Polars + Dask

Load:
• DB: PostgreSQL (pgvector) + MongoDB
• 벡터: Milvus/Zilliz Cloud
• 검색: Elasticsearch
• DW: Snowflake or Databricks

Workflow: Airflow 3.0 or Dagster
Container: Kubernetes + Helm


🎯 선택 가이드 요약

우선순위 선택 기준
속도/성능 Playwright, Polars, Milvus, Qwen3-Embedding
안정성/성숙도 Airflow 3.0, PostgreSQL, Elasticsearch
개발 속도 Prefect, FastAPI, Chroma
비용 효율 오픈소스 (Qdrant, OpenSearch, Dagster)
확장성 Kafka, Kubernetes, Snowflake, Pinecone
다국어 BGE-M3, Qwen3-Embedding, PaddleOCR

마치며

2025년 ETL 생태계는 AI 네이티브 도구들의 약진이 눈에 띕니다.

주요 트렌드:
• Playwright가 웹 크롤링의 새로운 표준
• Transformer 기반 OCR 모델들의 대거 등장
• 멀티모달 임베딩(BGE-VL)의 실용화
• 벡터 DB 성능 경쟁 심화
• 워크플로우 도구 성숙화

기술 선택은 프로젝트 규모, 팀 역량, 예산에 맞춰야 합니다.

이 문서가 여러분의 데이터 파이프라인 구축에 나침반이 되길 바랍니다! 🚀



피드백 환영: 실무 경험과 최신 정보를 댓글로 공유해주세요!