資料中台術語表

CloudWave 的資料中台產品線必背。 2026 是「Lakehouse + AI 原生」年——Snowflake Cortex、Databricks Lakebase、MotherDuck 重構 pricing 都是這條線。

ETL vs ELT（資料整合的兩種思路）

白話：

ETL（Extract → Transform → Load）：先清洗轉換好，再裝進倉儲。傳統做法。
ELT（Extract → Load → Transform）：先全部丟進倉儲，再用 SQL 在裡面轉。現代做法。

為什麼面試會問：你產品支援哪一種？2026 主流是 ELT（Snowflake / BigQuery 都鼓勵）。

為什麼 ELT 贏：

倉儲算力便宜了，直接在裡面 transform 比外部 ETL 工具快
dbt 等工具讓 SQL transformation 易維護
原始資料保留，未來想換轉換邏輯不用重抓

容易搞混：ETL ≠ batch，ELT ≠ real-time。兩種模式都有 batch 和 streaming 版本。

📖 講義引用：2.4 資料中台

Data Warehouse（資料倉儲）

白話：結構化資料（表格）的中央儲存，主要給 BI 報表 / SQL 分析用。

為什麼面試會問：傳統資料中台核心。Snowflake、BigQuery、Redshift 都屬此類。

特徵：

Schema-on-write（寫入前先定義表結構）
Columnar storage（按欄存，分析快）
SQL 為主介面
適合：報表、BI dashboard、OLAP

容易搞混：Data Warehouse vs Database。Database（如 PostgreSQL）為線上交易（OLTP）優化；Warehouse 為分析（OLAP）優化。

📖 講義引用：2.4 三層架構

Data Lake（資料湖）

白話：任何格式都丟（JSON、CSV、影片、log）的便宜儲存，schema-on-read（讀的時候才定結構）。

為什麼面試會問：跟 Warehouse 互補。Lake 存原始資料，需要時撈出來分析。

典型架構：

底層：S3 / GCS / ADLS（便宜物件儲存）
格式：Parquet / ORC / Avro / JSON
查詢：Athena / BigQuery External / Spark

問題：Lake 容易變「Data Swamp」（亂得沒人能用）。需要 metadata 管理（Hive Metastore / Unity Catalog）。

📖 講義引用：2.4 三層架構

Lakehouse（湖倉一體）

白話：Lake 的便宜 + Warehouse 的查詢效能。Databricks 提出的概念，現在是業界共識。

為什麼面試會問：2026 資料平台主流架構。Databricks、Snowflake、Iceberg 等都收斂到這方向。

核心技術：

Delta Lake（Databricks 開源）
Apache Iceberg（Netflix 開源，現在最熱）
Apache Hudi（Uber 開源）

這三個都做同一件事：讓 Data Lake 上的 Parquet 檔有 ACID transaction、time travel、schema evolution。

面試陷阱：客戶問「我該選 Warehouse 還是 Lake」——答「2026 答案是 Lakehouse，Iceberg 開放格式避免 vendor lock-in」。

📖 講義引用：2.4 2026 重大動態

dbt（data build tool）

白話：用 SQL + Jinja template 寫資料轉換 pipeline 的工具，把雜亂的 SQL 變成可維護、可測試、有版本的 code base。

為什麼面試會問：2026 資料工程必備。dbt-core 開源 + dbt Cloud 商業版。

為什麼紅：

SQL 寫 transformation，分析師也能寫
自動依賴解析（ref() macro）
內建 test（schema test / data test）
自動產生 documentation + lineage 圖

容易搞混：dbt 不抓資料、不裝資料——只負責「資料進倉儲後的 transformation」。Airflow 才管 orchestration。

📖 講義引用：2.4 工具棧

Airflow（Apache Airflow）

白話：排程 + DAG（有向無環圖）任務管理工具。「先抓 A、再抓 B、處理完跑 C」的 pipeline 編排器。

為什麼面試會問：資料工程標配。雖然 2026 有競爭者（Prefect / Dagster / Mage）但 Airflow 仍是主流。

典型用途：

每天凌晨 3 點抓 SaaS API
抓完跑 dbt transformation
跑完更新 BI dashboard
中間任何步驟失敗 → 通知 + retry

容易搞混：Airflow 跟 cron 不一樣——cron 是「時間到就跑」，Airflow 多了依賴、retry、監控。

📖 講義引用：2.4 工具棧

Cortex AI SQL（Snowflake）

白話：直接用 SQL 寫 AI 操作——SELECT SENTIMENT(comment) FROM reviews、SELECT EXTRACT_ANSWER(doc, 'who paid?') FROM contracts。

為什麼面試會問：Snowflake 2026 殺手級功能。「資料中台 + LLM」融合範例。

典型用法：

-- sentiment 分析
SELECT review_id, SNOWFLAKE.CORTEX.SENTIMENT(review_text) FROM reviews;

-- fuzzy join
SELECT a.*, b.* FROM customers a, leads b
WHERE SNOWFLAKE.CORTEX.SIMILARITY(a.name, b.name) > 0.85;

-- RAG search
SELECT SNOWFLAKE.CORTEX.SEARCH(doc_id, 'What is the SLA for X?') FROM contracts;

面試陷阱：CloudWave 資料中台有沒有內建 LLM SQL 函數？沒有 = 跟 Snowflake 競爭沒戲。

📖 講義引用：2.4 2026 重大動態

Lakebase（Databricks）

白話：Databricks 2026 推的「Lakehouse 上的 OLTP database」——讓你在同一平台既做分析也做交易。

為什麼面試會問：2026 GA。打破「Lakehouse 只能 OLAP」的既有印象。

核心特性：

Autoscaling：流量大自動擴
Scale-to-zero：閒置不收錢（這是省錢殺手）
Instant branching：一秒 fork 整個 DB 出來測試
Point-in-time recovery：時光機回到任何時間點

容易搞混：Lakebase 不是取代 PostgreSQL / MySQL——它鎖定「既要交易又要分析」的混合場景。

📖 講義引用：2.4 2026 重大動態

Unity Catalog（Databricks）

白話：Databricks 的「整個資料平台的 metadata + 權限管理層」。誰能讀哪張表、欄位 lineage、tag 分類都管在這。

為什麼面試會問：2026 Data Governance 必備。Databricks 把 MLflow trace 也存進 Unity Catalog。

核心概念：

Catalog → Schema → Table 三層結構
行 / 欄級權限（row-level security）
Lineage（這張表是怎麼來的、被誰用）
Tag（PII / sensitive）

對比：

AWS 對應的是 Glue Data Catalog
Open source 是 Hive Metastore（老）/ Apache Polaris（新，Snowflake 開源）

📖 講義引用：2.4 Databricks 動態

MLflow

白話：模型實驗追蹤 + 部署工具。哪次訓練用什麼參數、accuracy 多少、權重在哪——都管在 MLflow。

為什麼面試會問：ML / Data 團隊標配。Databricks 收 MLflow 後整合進 Unity Catalog。

核心功能：

Tracking：記錄每次 training run 的 params / metrics / artifacts
Registry：模型版本管理（v1 / v2 / production）
Deployment：一鍵部署到 endpoint
Traces（2026 新）：記 LLM 應用的 prompt / response 給 debug

容易搞混：MLflow 跟 Weights & Biases（W&B）類似，W&B 介面更好但 vendor lock-in；MLflow 開源。

📖 講義引用：2.4 Databricks 動態

MotherDuck

白話：把 DuckDB（單機 OLAP database）變成雲端服務，主打「個人 / 小團隊資料分析」。

為什麼面試會問：2026 Pricing 重整大改。從 freemium 走向「免費但嚴限資源 / 貴但強用量」雙極。

2026 Pricing：

Lite：原 $25 → $0（功能砍）
Business：$100 → $250 / 月
新 Mega 階梯：$12 / 小時
新 Giga 階梯：$36 / 小時
Storage：$0.04 / GB / 月

面試陷阱：客戶問「我團隊 5 人想做 ad-hoc analysis」——MotherDuck $250 比 Snowflake $X 便宜，但要算 compute 用量。

📖 講義引用：2.4 2026 重大動態

Cheat Sheet（一頁回顧）

術語	一句白話	重點
ETL vs ELT	先轉後裝 vs 先裝後轉	2026 主流 ELT
Data Warehouse	結構化分析倉儲	Snowflake / BigQuery
Data Lake	任何格式便宜儲	S3 + Parquet
Lakehouse	Lake 便宜 + Warehouse 快	主流架構
dbt	SQL transformation	標配
Airflow	DAG 排程	標配
Cortex AI SQL	SQL 直寫 AI	Snowflake 殺手鐧
Lakebase	Lakehouse 上的 OLTP	Databricks 2026 GA
Unity Catalog	資料平台 metadata + 權限	Governance 必備
MLflow	模型實驗追蹤	ML 團隊標配
MotherDuck	DuckDB 雲版	小團隊選項

2026 平台動態速覽

平台	2026 動向	Pricing
Snowflake	Cortex（RAG / AI SQL）	Token + compute budget
Databricks	Lakebase GA + Unity Catalog 擴	Compute size 分級
MotherDuck	Pricing 重整	$0 / $250 / $12-36 hr
BigQuery	持續擴 ML feature	On-demand vs slot

📚 回到主講義：CloudWave 產品經理面試講義 v3