跳到主要內容
Nora 面試實驗室

Nora 面試實驗室 · Reference

資料中台術語表

ETL/ELT、Data Warehouse vs Lakehouse、Snowflake Cortex、Databricks Lakebase、MotherDuck——資料中台產品 PM 必懂的所有術語白話版。

2026-04-27Nora 面試實驗室Noindex
這頁是公開可分享頁面,但已加上 noindex,方便朋友互傳連結,同時降低被搜尋引擎主動收錄的機率。

資料中台術語表

CloudWave 的資料中台產品線必背。 2026 是「Lakehouse + AI 原生」年——Snowflake Cortex、Databricks Lakebase、MotherDuck 重構 pricing 都是這條線。


ETL vs ELT(資料整合的兩種思路)

白話

  • ETL(Extract → Transform → Load):先清洗轉換好,再裝進倉儲。傳統做法。
  • ELT(Extract → Load → Transform)先全部丟進倉儲,再用 SQL 在裡面轉。現代做法。

為什麼面試會問:你產品支援哪一種?2026 主流是 ELT(Snowflake / BigQuery 都鼓勵)。

為什麼 ELT 贏

  • 倉儲算力便宜了,直接在裡面 transform 比外部 ETL 工具快
  • dbt 等工具讓 SQL transformation 易維護
  • 原始資料保留,未來想換轉換邏輯不用重抓

容易搞混:ETL ≠ batch,ELT ≠ real-time。兩種模式都有 batch 和 streaming 版本。

📖 講義引用:2.4 資料中台


Data Warehouse(資料倉儲)

白話結構化資料(表格)的中央儲存,主要給 BI 報表 / SQL 分析用。

為什麼面試會問:傳統資料中台核心。Snowflake、BigQuery、Redshift 都屬此類。

特徵

  • Schema-on-write(寫入前先定義表結構)
  • Columnar storage(按欄存,分析快)
  • SQL 為主介面
  • 適合:報表、BI dashboard、OLAP

容易搞混:Data Warehouse vs Database。Database(如 PostgreSQL)為線上交易(OLTP)優化;Warehouse 為分析(OLAP)優化。

📖 講義引用:2.4 三層架構


Data Lake(資料湖)

白話任何格式都丟(JSON、CSV、影片、log)的便宜儲存,schema-on-read(讀的時候才定結構)。

為什麼面試會問:跟 Warehouse 互補。Lake 存原始資料,需要時撈出來分析。

典型架構

  • 底層:S3 / GCS / ADLS(便宜物件儲存)
  • 格式:Parquet / ORC / Avro / JSON
  • 查詢:Athena / BigQuery External / Spark

問題:Lake 容易變「Data Swamp」(亂得沒人能用)。需要 metadata 管理(Hive Metastore / Unity Catalog)。

📖 講義引用:2.4 三層架構


Lakehouse(湖倉一體)

白話Lake 的便宜 + Warehouse 的查詢效能。Databricks 提出的概念,現在是業界共識。

為什麼面試會問:2026 資料平台主流架構。Databricks、Snowflake、Iceberg 等都收斂到這方向。

核心技術

  • Delta Lake(Databricks 開源)
  • Apache Iceberg(Netflix 開源,現在最熱)
  • Apache Hudi(Uber 開源)

這三個都做同一件事:讓 Data Lake 上的 Parquet 檔有 ACID transaction、time travel、schema evolution

面試陷阱:客戶問「我該選 Warehouse 還是 Lake」——答「2026 答案是 Lakehouse,Iceberg 開放格式避免 vendor lock-in」。

📖 講義引用:2.4 2026 重大動態


dbt(data build tool)

白話:用 SQL + Jinja template 寫資料轉換 pipeline 的工具,把雜亂的 SQL 變成可維護、可測試、有版本的 code base。

為什麼面試會問:2026 資料工程必備。dbt-core 開源 + dbt Cloud 商業版。

為什麼紅

  • SQL 寫 transformation,分析師也能寫
  • 自動依賴解析(ref() macro)
  • 內建 test(schema test / data test)
  • 自動產生 documentation + lineage 圖

容易搞混:dbt 不抓資料、不裝資料——只負責「資料進倉儲後的 transformation」。Airflow 才管 orchestration。

📖 講義引用:2.4 工具棧


Airflow(Apache Airflow)

白話排程 + DAG(有向無環圖)任務管理工具。「先抓 A、再抓 B、處理完跑 C」的 pipeline 編排器。

為什麼面試會問:資料工程標配。雖然 2026 有競爭者(Prefect / Dagster / Mage)但 Airflow 仍是主流。

典型用途

  • 每天凌晨 3 點抓 SaaS API
  • 抓完跑 dbt transformation
  • 跑完更新 BI dashboard
  • 中間任何步驟失敗 → 通知 + retry

容易搞混:Airflow 跟 cron 不一樣——cron 是「時間到就跑」,Airflow 多了依賴、retry、監控。

📖 講義引用:2.4 工具棧


Cortex AI SQL(Snowflake)

白話直接用 SQL 寫 AI 操作——SELECT SENTIMENT(comment) FROM reviewsSELECT EXTRACT_ANSWER(doc, 'who paid?') FROM contracts

為什麼面試會問:Snowflake 2026 殺手級功能。「資料中台 + LLM」融合範例。

典型用法

-- sentiment 分析
SELECT review_id, SNOWFLAKE.CORTEX.SENTIMENT(review_text) FROM reviews;

-- fuzzy join
SELECT a.*, b.* FROM customers a, leads b
WHERE SNOWFLAKE.CORTEX.SIMILARITY(a.name, b.name) > 0.85;

-- RAG search
SELECT SNOWFLAKE.CORTEX.SEARCH(doc_id, 'What is the SLA for X?') FROM contracts;

面試陷阱:CloudWave 資料中台有沒有內建 LLM SQL 函數?沒有 = 跟 Snowflake 競爭沒戲。

📖 講義引用:2.4 2026 重大動態


Lakebase(Databricks)

白話:Databricks 2026 推的「Lakehouse 上的 OLTP database」——讓你在同一平台既做分析也做交易

為什麼面試會問:2026 GA。打破「Lakehouse 只能 OLAP」的既有印象。

核心特性

  • Autoscaling:流量大自動擴
  • Scale-to-zero:閒置不收錢(這是省錢殺手)
  • Instant branching:一秒 fork 整個 DB 出來測試
  • Point-in-time recovery:時光機回到任何時間點

容易搞混:Lakebase 不是取代 PostgreSQL / MySQL——它鎖定「既要交易又要分析」的混合場景。

📖 講義引用:2.4 2026 重大動態


Unity Catalog(Databricks)

白話:Databricks 的「整個資料平台的 metadata + 權限管理層」。誰能讀哪張表、欄位 lineage、tag 分類都管在這。

為什麼面試會問:2026 Data Governance 必備。Databricks 把 MLflow trace 也存進 Unity Catalog。

核心概念

  • Catalog → Schema → Table 三層結構
  • 行 / 欄級權限(row-level security)
  • Lineage(這張表是怎麼來的、被誰用)
  • Tag(PII / sensitive)

對比

  • AWS 對應的是 Glue Data Catalog
  • Open source 是 Hive Metastore(老)/ Apache Polaris(新,Snowflake 開源)

📖 講義引用:2.4 Databricks 動態


MLflow

白話模型實驗追蹤 + 部署工具。哪次訓練用什麼參數、accuracy 多少、權重在哪——都管在 MLflow。

為什麼面試會問:ML / Data 團隊標配。Databricks 收 MLflow 後整合進 Unity Catalog。

核心功能

  • Tracking:記錄每次 training run 的 params / metrics / artifacts
  • Registry:模型版本管理(v1 / v2 / production)
  • Deployment:一鍵部署到 endpoint
  • Traces(2026 新):記 LLM 應用的 prompt / response 給 debug

容易搞混:MLflow 跟 Weights & Biases(W&B)類似,W&B 介面更好但 vendor lock-in;MLflow 開源。

📖 講義引用:2.4 Databricks 動態


MotherDuck

白話:把 DuckDB(單機 OLAP database)變成雲端服務,主打「個人 / 小團隊資料分析」。

為什麼面試會問:2026 Pricing 重整大改。從 freemium 走向「免費但嚴限資源 / 貴但強用量」雙極。

2026 Pricing

  • Lite:原 $25 → $0(功能砍)
  • Business:$100 → $250 / 月
  • 新 Mega 階梯:$12 / 小時
  • 新 Giga 階梯:$36 / 小時
  • Storage:$0.04 / GB / 月

面試陷阱:客戶問「我團隊 5 人想做 ad-hoc analysis」——MotherDuck $250 比 Snowflake $X 便宜,但要算 compute 用量。

📖 講義引用:2.4 2026 重大動態


Cheat Sheet(一頁回顧)

術語一句白話重點
ETL vs ELT先轉後裝 vs 先裝後轉2026 主流 ELT
Data Warehouse結構化分析倉儲Snowflake / BigQuery
Data Lake任何格式便宜儲S3 + Parquet
LakehouseLake 便宜 + Warehouse 快主流架構
dbtSQL transformation標配
AirflowDAG 排程標配
Cortex AI SQLSQL 直寫 AISnowflake 殺手鐧
LakebaseLakehouse 上的 OLTPDatabricks 2026 GA
Unity Catalog資料平台 metadata + 權限Governance 必備
MLflow模型實驗追蹤ML 團隊標配
MotherDuckDuckDB 雲版小團隊選項

2026 平台動態速覽

平台2026 動向Pricing
SnowflakeCortex(RAG / AI SQL)Token + compute budget
DatabricksLakebase GA + Unity Catalog 擴Compute size 分級
MotherDuckPricing 重整$0 / $250 / $12-36 hr
BigQuery持續擴 ML featureOn-demand vs slot

📚 回到主講義CloudWave 產品經理面試講義 v3