資料中台術語表
CloudWave 的資料中台產品線必背。 2026 是「Lakehouse + AI 原生」年——Snowflake Cortex、Databricks Lakebase、MotherDuck 重構 pricing 都是這條線。
ETL vs ELT(資料整合的兩種思路)
白話:
- ETL(Extract → Transform → Load):先清洗轉換好,再裝進倉儲。傳統做法。
- ELT(Extract → Load → Transform):先全部丟進倉儲,再用 SQL 在裡面轉。現代做法。
為什麼面試會問:你產品支援哪一種?2026 主流是 ELT(Snowflake / BigQuery 都鼓勵)。
為什麼 ELT 贏:
- 倉儲算力便宜了,直接在裡面 transform 比外部 ETL 工具快
- dbt 等工具讓 SQL transformation 易維護
- 原始資料保留,未來想換轉換邏輯不用重抓
容易搞混:ETL ≠ batch,ELT ≠ real-time。兩種模式都有 batch 和 streaming 版本。
📖 講義引用:2.4 資料中台
Data Warehouse(資料倉儲)
白話:結構化資料(表格)的中央儲存,主要給 BI 報表 / SQL 分析用。
為什麼面試會問:傳統資料中台核心。Snowflake、BigQuery、Redshift 都屬此類。
特徵:
- Schema-on-write(寫入前先定義表結構)
- Columnar storage(按欄存,分析快)
- SQL 為主介面
- 適合:報表、BI dashboard、OLAP
容易搞混:Data Warehouse vs Database。Database(如 PostgreSQL)為線上交易(OLTP)優化;Warehouse 為分析(OLAP)優化。
📖 講義引用:2.4 三層架構
Data Lake(資料湖)
白話:任何格式都丟(JSON、CSV、影片、log)的便宜儲存,schema-on-read(讀的時候才定結構)。
為什麼面試會問:跟 Warehouse 互補。Lake 存原始資料,需要時撈出來分析。
典型架構:
- 底層:S3 / GCS / ADLS(便宜物件儲存)
- 格式:Parquet / ORC / Avro / JSON
- 查詢:Athena / BigQuery External / Spark
問題:Lake 容易變「Data Swamp」(亂得沒人能用)。需要 metadata 管理(Hive Metastore / Unity Catalog)。
📖 講義引用:2.4 三層架構
Lakehouse(湖倉一體)
白話:Lake 的便宜 + Warehouse 的查詢效能。Databricks 提出的概念,現在是業界共識。
為什麼面試會問:2026 資料平台主流架構。Databricks、Snowflake、Iceberg 等都收斂到這方向。
核心技術:
- Delta Lake(Databricks 開源)
- Apache Iceberg(Netflix 開源,現在最熱)
- Apache Hudi(Uber 開源)
這三個都做同一件事:讓 Data Lake 上的 Parquet 檔有 ACID transaction、time travel、schema evolution。
面試陷阱:客戶問「我該選 Warehouse 還是 Lake」——答「2026 答案是 Lakehouse,Iceberg 開放格式避免 vendor lock-in」。
📖 講義引用:2.4 2026 重大動態
dbt(data build tool)
白話:用 SQL + Jinja template 寫資料轉換 pipeline 的工具,把雜亂的 SQL 變成可維護、可測試、有版本的 code base。
為什麼面試會問:2026 資料工程必備。dbt-core 開源 + dbt Cloud 商業版。
為什麼紅:
- SQL 寫 transformation,分析師也能寫
- 自動依賴解析(
ref()macro) - 內建 test(schema test / data test)
- 自動產生 documentation + lineage 圖
容易搞混:dbt 不抓資料、不裝資料——只負責「資料進倉儲後的 transformation」。Airflow 才管 orchestration。
📖 講義引用:2.4 工具棧
Airflow(Apache Airflow)
白話:排程 + DAG(有向無環圖)任務管理工具。「先抓 A、再抓 B、處理完跑 C」的 pipeline 編排器。
為什麼面試會問:資料工程標配。雖然 2026 有競爭者(Prefect / Dagster / Mage)但 Airflow 仍是主流。
典型用途:
- 每天凌晨 3 點抓 SaaS API
- 抓完跑 dbt transformation
- 跑完更新 BI dashboard
- 中間任何步驟失敗 → 通知 + retry
容易搞混:Airflow 跟 cron 不一樣——cron 是「時間到就跑」,Airflow 多了依賴、retry、監控。
📖 講義引用:2.4 工具棧
Cortex AI SQL(Snowflake)
白話:直接用 SQL 寫 AI 操作——SELECT SENTIMENT(comment) FROM reviews、SELECT EXTRACT_ANSWER(doc, 'who paid?') FROM contracts。
為什麼面試會問:Snowflake 2026 殺手級功能。「資料中台 + LLM」融合範例。
典型用法:
-- sentiment 分析
SELECT review_id, SNOWFLAKE.CORTEX.SENTIMENT(review_text) FROM reviews;
-- fuzzy join
SELECT a.*, b.* FROM customers a, leads b
WHERE SNOWFLAKE.CORTEX.SIMILARITY(a.name, b.name) > 0.85;
-- RAG search
SELECT SNOWFLAKE.CORTEX.SEARCH(doc_id, 'What is the SLA for X?') FROM contracts;
面試陷阱:CloudWave 資料中台有沒有內建 LLM SQL 函數?沒有 = 跟 Snowflake 競爭沒戲。
📖 講義引用:2.4 2026 重大動態
Lakebase(Databricks)
白話:Databricks 2026 推的「Lakehouse 上的 OLTP database」——讓你在同一平台既做分析也做交易。
為什麼面試會問:2026 GA。打破「Lakehouse 只能 OLAP」的既有印象。
核心特性:
- Autoscaling:流量大自動擴
- Scale-to-zero:閒置不收錢(這是省錢殺手)
- Instant branching:一秒 fork 整個 DB 出來測試
- Point-in-time recovery:時光機回到任何時間點
容易搞混:Lakebase 不是取代 PostgreSQL / MySQL——它鎖定「既要交易又要分析」的混合場景。
📖 講義引用:2.4 2026 重大動態
Unity Catalog(Databricks)
白話:Databricks 的「整個資料平台的 metadata + 權限管理層」。誰能讀哪張表、欄位 lineage、tag 分類都管在這。
為什麼面試會問:2026 Data Governance 必備。Databricks 把 MLflow trace 也存進 Unity Catalog。
核心概念:
- Catalog → Schema → Table 三層結構
- 行 / 欄級權限(row-level security)
- Lineage(這張表是怎麼來的、被誰用)
- Tag(PII / sensitive)
對比:
- AWS 對應的是 Glue Data Catalog
- Open source 是 Hive Metastore(老)/ Apache Polaris(新,Snowflake 開源)
📖 講義引用:2.4 Databricks 動態
MLflow
白話:模型實驗追蹤 + 部署工具。哪次訓練用什麼參數、accuracy 多少、權重在哪——都管在 MLflow。
為什麼面試會問:ML / Data 團隊標配。Databricks 收 MLflow 後整合進 Unity Catalog。
核心功能:
- Tracking:記錄每次 training run 的 params / metrics / artifacts
- Registry:模型版本管理(v1 / v2 / production)
- Deployment:一鍵部署到 endpoint
- Traces(2026 新):記 LLM 應用的 prompt / response 給 debug
容易搞混:MLflow 跟 Weights & Biases(W&B)類似,W&B 介面更好但 vendor lock-in;MLflow 開源。
📖 講義引用:2.4 Databricks 動態
MotherDuck
白話:把 DuckDB(單機 OLAP database)變成雲端服務,主打「個人 / 小團隊資料分析」。
為什麼面試會問:2026 Pricing 重整大改。從 freemium 走向「免費但嚴限資源 / 貴但強用量」雙極。
2026 Pricing:
- Lite:原 $25 → $0(功能砍)
- Business:$100 → $250 / 月
- 新 Mega 階梯:$12 / 小時
- 新 Giga 階梯:$36 / 小時
- Storage:$0.04 / GB / 月
面試陷阱:客戶問「我團隊 5 人想做 ad-hoc analysis」——MotherDuck $250 比 Snowflake $X 便宜,但要算 compute 用量。
📖 講義引用:2.4 2026 重大動態
Cheat Sheet(一頁回顧)
| 術語 | 一句白話 | 重點 |
|---|---|---|
| ETL vs ELT | 先轉後裝 vs 先裝後轉 | 2026 主流 ELT |
| Data Warehouse | 結構化分析倉儲 | Snowflake / BigQuery |
| Data Lake | 任何格式便宜儲 | S3 + Parquet |
| Lakehouse | Lake 便宜 + Warehouse 快 | 主流架構 |
| dbt | SQL transformation | 標配 |
| Airflow | DAG 排程 | 標配 |
| Cortex AI SQL | SQL 直寫 AI | Snowflake 殺手鐧 |
| Lakebase | Lakehouse 上的 OLTP | Databricks 2026 GA |
| Unity Catalog | 資料平台 metadata + 權限 | Governance 必備 |
| MLflow | 模型實驗追蹤 | ML 團隊標配 |
| MotherDuck | DuckDB 雲版 | 小團隊選項 |
2026 平台動態速覽
| 平台 | 2026 動向 | Pricing |
|---|---|---|
| Snowflake | Cortex(RAG / AI SQL) | Token + compute budget |
| Databricks | Lakebase GA + Unity Catalog 擴 | Compute size 分級 |
| MotherDuck | Pricing 重整 | $0 / $250 / $12-36 hr |
| BigQuery | 持續擴 ML feature | On-demand vs slot |
📚 回到主講義:CloudWave 產品經理面試講義 v3