ETL 기술 스택 완벽 정리

Research Notes/Data Engineering

ETL 기술 스택 완벽 정리

m2222n 2025. 12. 26. 17:37

ETL 기술 스택 정리

2025년 12월 기준으로 작성하였습니다.

데이터 파이프라인 구축 시 참고할 수 있는 최신 기술 스택 총정리

데이터 파이프라인을 구축하다 보면 정말 다양한 도구와 라이브러리들을 접하게 됩니다. 2025년 현재, AI/ML의 발전과 함께 ETL 생태계도 빠르게 진화하고 있습니다.

이 글에서는 Extract, Transform, Load 각 단계에서 활용할 수 있는 최신 기술들을 정리하고, 실무에서 어떤 기술을 선택해야 하는지 가이드를 제공합니다.

1. Extract - 데이터 추출

1.1 웹 크롤링/스크래핑

🔧 HTTP 클라이언트 라이브러리

이름	언어	설명	용도
requests	Python	가장 널리 쓰이는 HTTP 라이브러리	정적 페이지 요청
httpx	Python	비동기 지원 HTTP 클라이언트	대량 병렬 요청
aiohttp	Python	비동기 HTTP 클라이언트/서버	고성능 비동기 크롤링
axios	Node.js	Promise 기반 HTTP 클라이언트	JS 환경 요청

🌐 헤드리스 브라우저 (2025.12)

이름	설명	장점	성능
⭐ Playwright	MS 개발, 현대적	35-40% 더 빠름, WebSocket 기반	페이지 로드 1.8초
Puppeteer	Google 개발, Chrome 전용	빠름, 널리 사용됨	페이지 로드 2.2초
Selenium	가장 오래된 자동화 도구	다양한 언어/브라우저 지원	페이지 로드 2.7초

💡 2025년 권장:
• 동적 사이트 크롤링 → Playwright
• 레거시 브라우저 지원 → Selenium
• 순수 속도 → requests/httpx

1.2 데이터베이스 연결

🗄️ 관계형 DB 드라이버/ORM

이름	언어	대상 DB	설명
psycopg3	Python	PostgreSQL	PostgreSQL 최신 드라이버
mysql-connector	Python	MySQL	MySQL 공식 드라이버
SQLAlchemy	Python	다중	ORM + 쿼리 빌더
Prisma	Node.js	다중	현대적 ORM

2. Transform - 데이터 변환

2.1 이미지 처리

🤖 딥러닝 기반 이미지 분석 (2025.12)

이름	개발사	설명	용도
SAM 2	Meta	차세대 이미지/비디오 세그멘테이션	객체 분할, 마스크 생성
YOLO v11	Ultralytics	최신 실시간 객체 탐지	객체 감지, 분류
CLIP	OpenAI	이미지-텍스트 연결 모델	이미지 임베딩

2.2 OCR (광학 문자 인식) - 2025.12

📝 전통 OCR 엔진

이름	개발사	설명	강점
Tesseract 5	Google	가장 널리 쓰이는 OCR	100+ 언어, 무료
EasyOCR	JaidedAI	딥러닝 기반 OCR	80+ 언어, 설치 쉬움
PaddleOCR	Baidu	고성능 다국어 OCR	높은 정확도, 중/영 최강

🚀 2025년 신규 OCR 모델

이름	개발사	설명	특징
⭐ Surya	VikParuchuri	차세대 OCR 툴킷	Tesseract보다 빠름, 90+ 언어
MiniCPM-o-2.6	OpenBMB	경량 멀티모달 OCR	8B 파라미터, 1.8M 픽셀
Moondream2	vikhyatk	소형 비전-언어 모델	2B 이하, OCRBench 61.2점
Donut	Clova AI	Transformer 기반 문서 이해	End-to-end, 레이아웃 이해

💡 2025년 권장:
• 일반 문서 → PaddleOCR, Surya
• 손글씨 → TrOCR, Moondream2
• 프로덕션 → AWS Textract, Google Vision

2.3 임베딩 모델 (2025년 최신)

📝 텍스트 임베딩 - SOTA 모델

이름	개발사	차원	특징	MTEB 순위
⭐ Qwen3-Embedding-8B	Alibaba	가변	다국어 최강, 100+ 언어	1위
NV-Embed-v2	NVIDIA	4096	Llama 3.1 기반	2위
BGE-M3	BAAI	1024	Multi-Func/Lang/Granularity	3위

🌐 멀티모달 임베딩 (2025 신규)

이름	개발사	특징
⭐ BGE-VL	BAAI	이미지+텍스트, MIT 라이선스, 상용 가능
CLIP	OpenAI	범용 멀티모달
LLaVA-NeXT	Microsoft	차세대 비전-언어 모델

💡 2025년 권장:
• 다국어 RAG → Qwen3-Embedding-8B, BGE-M3
• 경량/엣지 → EmbeddingGemma-300M
• 멀티모달 → BGE-VL, CLIP

3. Load - 데이터 적재

3.1 벡터 데이터베이스 (2025년 최신)

🔮 전용 벡터 DB - 성능 비교

이름	유형	특징	성능	가격
Pinecone	관리형 SaaS	완전 관리형, 서버리스	상위권	$25/월~
⭐ Milvus/Zilliz Cloud	OSS/관리형	최고 성능, GPU 지원	1위 (저지연)	무료~$99/월
Qdrant	OSS/관리형	Rust 기반, 강력한 필터링	2위	무료 1GB, $25/월~
Chroma	오픈소스	경량, 개발 친화적	중간	무료

🔌 벡터 지원 확장 (2025)

이름	기반 DB	설명	성능
pgvector	PostgreSQL	PG 확장, 471 QPS @ 50M 벡터	우수
⭐ OpenSearch kNN 3.0	OpenSearch	9.5배 성능 향상 (2025년 5월)	상위권
Elasticsearch kNN	Elasticsearch	ES 벡터 검색	우수

💡 2025년 권장:
• 프로덕션 (관리형) → Pinecone, Zilliz Cloud
• 오픈소스 → Qdrant (필터링), Milvus (성능)
• 기존 DB 활용 → pgvector, OpenSearch kNN
• 프로토타입 → Chroma

3.2 데이터 웨어하우스

이름	유형	특징	용도
Snowflake	클라우드	자동 확장, 데이터 공유	분석, ML
BigQuery	GCP	서버리스, 저렴	GCP 분석
Databricks	클라우드	Spark 기반, 레이크하우스	ML, 분석
ClickHouse	오픈소스	초고속 OLAP	실시간 분석

4. 워크플로우 오케스트레이션 (2025년 현황)

이름	유형	특징	2025년 현황
⭐ Apache Airflow 3.0	오픈소스	DAG 기반, 최대 생태계	3.0 출시 (2025.04): 이벤트 기반, 8천만 다운로드
Dagster	오픈소스/클라우드	데이터 자산 중심	Components GA (2025.10), 리니지 강력
Prefect	오픈소스/클라우드	현대적, Python 친화적	Incidents 기능 추가, Python 3.10+
⭐ Kestra	오픈소스	선언적 YAML	2025년 급성장 중

💡 2025년 선택 가이드:
• 기업 표준/성숙도 → Airflow 3.0
• 데이터 리니지/품질 → Dagster
• 개발자 경험/속도 → Prefect
• 선언적 워크플로우 → Kestra

📋 2025년 주요 변화점

🔥 핫한 신기술

Playwright 완전 우위 - Selenium 대비 35-40% 빠름
Airflow 3.0 출시 - 이벤트 기반 워크플로우
OCR 혁명 - Surya, MiniCPM-o 등 Transformer 기반
벡터 DB 성능 경쟁 - OpenSearch kNN 3.0 (9.5배 향상)
임베딩 모델 - Qwen3-Embedding-8B (MTEB 1위)
Polars 급부상 - pandas보다 10배 빠른 DataFrame

🏗️ 권장 기술 스택

🚀 스타트업/중소규모

Extract:
• 웹: Playwright (동적) + requests (정적)
• DB: SQLAlchemy + pymongo

Transform:
• 이미지: Pillow + YOLO v11
• OCR: PaddleOCR or EasyOCR
• 임베딩: BGE-M3

Load:
• DB: PostgreSQL + Redis
• 벡터: Qdrant or Chroma
• 검색: MeiliSearch

Workflow: Prefect or Kestra

🏢 엔터프라이즈/대규모

Extract:
• 웹: Scrapy + Playwright + Kafka
• DB: SQLAlchemy + CDC (Debezium)
• API: LiteLLM

Transform:
• 이미지: OpenCV + SAM 2
• OCR: Surya + AWS Textract
• 임베딩: Qwen3-Embedding-8B
• 처리: Polars + Dask

Load:
• DB: PostgreSQL (pgvector) + MongoDB
• 벡터: Milvus/Zilliz Cloud
• 검색: Elasticsearch
• DW: Snowflake or Databricks

Workflow: Airflow 3.0 or Dagster
Container: Kubernetes + Helm

🎯 선택 가이드 요약

우선순위	선택 기준
속도/성능	Playwright, Polars, Milvus, Qwen3-Embedding
안정성/성숙도	Airflow 3.0, PostgreSQL, Elasticsearch
개발 속도	Prefect, FastAPI, Chroma
비용 효율	오픈소스 (Qdrant, OpenSearch, Dagster)
확장성	Kafka, Kubernetes, Snowflake, Pinecone
다국어	BGE-M3, Qwen3-Embedding, PaddleOCR

마치며

2025년 ETL 생태계는 AI 네이티브 도구들의 약진이 눈에 띕니다.

주요 트렌드:
• Playwright가 웹 크롤링의 새로운 표준
• Transformer 기반 OCR 모델들의 대거 등장
• 멀티모달 임베딩(BGE-VL)의 실용화
• 벡터 DB 성능 경쟁 심화
• 워크플로우 도구 성숙화

기술 선택은 프로젝트 규모, 팀 역량, 예산에 맞춰야 합니다.

이 문서가 여러분의 데이터 파이프라인 구축에 나침반이 되길 바랍니다! 🚀

피드백 환영: 실무 경험과 최신 정보를 댓글로 공유해주세요!

현재글ETL 기술 스택 완벽 정리

Minstory

배움과 경험을 기록하며 성장해가는, 제 인사이트 아카이브입니다.

웹 크롤링, 바이브코딩, LangChain 입문, 랭체인 입문, Rag, Thunder-Tok, llm, AI코딩, 파이썬, pandas, 클로드 코드, 파이썬 기초용어, LangChain, 농산물 데이터, 랭체인 교재 추천, 클로드코드, 빅데이터 프로젝트, claude code, Python, BeautifulSoup,

Today :
Yesterday :

Minstory