AI 推論部署術語表

CloudWave 的 AI 模型部署產品線必背。 2026 是「Inference 戰爭年」——Replicate 被收購、Together $3 億、Fireworks 跑分、Cloudflare AI Gateway 統一推論層。

Inference vs Training（推論 vs 訓練）

白話：

Training（訓練）：教模型「該怎麼做」。一次性、超貴 GPU、跑數天到數週。產出 model.bin。
Inference（推論）：用訓練好的模型「真的去做」。每天跑、便宜很多、毫秒到秒。產出 API response。

為什麼面試會問：CloudWave 做的是 Inference 部署，不是訓練平台。搞錯了你連產品定位都答不出來。

容易搞混：客戶以為「我要訓練一個模型」就找 inference 平台——錯。Inference 平台是把已訓好的模型 host 起來給人用。

對比實例：OpenAI 訓 GPT-5 用幾千張 H100 跑幾週（training）→ 訓完 host 起來給全世界用（inference）。

📖 講義引用：2.2 AI 模型部署

Latency p50 / p99（延遲百分位）

白話：

p50（中位數）：50% 的請求比這個快（典型體驗）
p99：99% 的請求比這個快（最差體驗，剩 1% 就是長尾）

為什麼面試會問：B2B 客戶最在意「最差能多差」。p50 50ms 但 p99 5 秒 = 100 個請求有 1 個慢到客戶想砸電腦。

面試陷阱：客戶問 latency，你只答 p50 = 初階。資深答「p50 80ms / p99 200ms / SLO 是 p99 < 500ms」。

為什麼 p99 重要：B2B 客戶 server 一秒可能打你 1000 次 → 平均下來「每秒都會碰到 10 次最慢的請求」。

📖 講義引用：2.2 關鍵指標

QPS / Tokens-per-second（吞吐量）

白話：

QPS（Queries Per Second）：每秒處理多少請求
Tokens-per-second：LLM 每秒吐出多少 token（中文 1 字 ≈ 1.5 tokens）

為什麼面試會問：客戶採購會問「你 QPS 上限多少」「我每秒打 10 萬次你撐不撐得住」。

參考數值：

LLM 推論 tokens/sec：Llama 3 70B 用 H100 約 30-50 tokens/s；用 quantization + FlashAttention 可破 200 tokens/s
圖片生成 QPS：Stable Diffusion XL 在單張 A100 約 0.3-1 QPS

面試加分：能講「我們用 batching + continuous batching 把 throughput 提到 X 倍」。

📖 講義引用：2.2 關鍵指標

GPU 利用率（GPU Utilization）

白話：你的 GPU 卡真正在跑運算的時間佔比。閒置中（idle）就是燒錢。

為什麼面試會問：GPU 一張一個月幾千美元，利用率 30% vs 80% 直接決定毛利。CloudWave AI 部署服務的 unit economics 完全靠這個。

怎麼提升：

Batching：累積幾個請求一起跑（latency vs throughput trade-off）
Continuous batching：vLLM 等技術不等批次，新請求隨時 join
Multi-tenancy：一張 GPU 跑多個客戶模型

面試陷阱：「客戶要 dedicated GPU」= 利用率低毛利差；「multi-tenant」= 利用率高但要解 noisy neighbor。

📖 講義引用：2.2 關鍵指標

Cold Start（冷啟動）

白話：服務從「閒置 / 沒實例」狀態到「能處理第一個請求」的延遲。

為什麼面試會問：Serverless GPU 平台（Modal / Replicate）的最大痛點。冷啟動 30 秒 = 客戶第一個請求等到天荒地老。

參考數值：

Modal：聲稱 sub-second（用各種 trick）
Replicate（Cloudflare 整合前）：常見 5-30 秒
自架 K8s GPU pod：30 秒到 2 分鐘
AWS Lambda（CPU only）：~100-500ms

怎麼解：

Pre-warmed instances（保留閒置 GPU，貴）
Snapshot-based start（保存記憶體狀態快速喚醒）
Lazy-load model weights（先啟動服務再載權重）

📖 講義引用：2.2 關鍵指標

Quantization（量化）

白話：把模型參數從 float32（32 位元）壓成 int8 或 int4（8 / 4 位元），犧牲精度換速度跟省記憶體。

為什麼面試會問：2026 開源模型推論的核心優化技術。能讓 70B 模型跑在消費級 GPU 上。

常見量化：

FP16 / BF16：精度幾乎無損，速度 2x，記憶體省一半。最安全選項。
INT8：精度小損（~1% accuracy drop），速度 3-4x
INT4 (GPTQ / AWQ)：精度可損 2-5%，速度 4-8x，70B 模型可跑在 24GB 卡上

面試陷阱：客戶問「你支援 quantization 嗎」要會講「FP16 default、INT8 提供選項、INT4 可選但 accuracy benchmark 客戶要自己驗」。

📖 講義引用：2.5 必背技術名詞

FlashAttention

白話：一個讓 Transformer 模型 attention 計算省記憶體 + 跑更快的演算法。2022 出 v1，2023 v2，2024 v3。

為什麼面試會問：Together.ai 拿這個當賣點，宣稱「比 hyperscaler inference 快 2-3x」。是 OSS 推論平台的差異化關鍵。

怎麼跟工程討論：

你產品有沒有 baked-in FlashAttention-3？
支援哪些架構（Llama / Mistral / Qwen）？
跟 vLLM 的 PagedAttention 是什麼關係？

容易搞混：FlashAttention 是「怎麼算 attention」的演算法；PagedAttention 是「怎麼管 KV cache」的演算法。兩個常一起用。

📖 講義引用：2.2 競品格局

AI Gateway / Multi-model Routing（多模型路由）

白話：一個「中央 API」幫客戶自動選最便宜 / 最快 / 最準的模型，背後接好幾家 provider。

為什麼面試會問：Cloudflare 2026「Agents Week」推 AI Gateway，單一 API 整合 70+ 模型 / 12+ provider——這是「統一推論層」戰略。CloudWave 不做這個就要被打。

功能範例：

一行 code 切換 GPT-5 / Claude 4.7 / Llama 70B
自動 fallback：Provider A 掛了切 B
統一計費（不用每家 API key 各管）
Prompt cache（重複 prompt 直接命中快取，省錢）
Rate limit / Cost guardrail

面試加分：能反問「CloudWave 有 Gateway 形態的 routing layer 嗎？」

📖 講義引用：2.3 CDN / Edge / AI Gateway

Serverless GPU

白話：你不用養機器，code 上傳後平台自動分配 GPU 跑，用多少算多少（per-second 計費）。

為什麼面試會問：Modal 是這領域代表。對 bursty workload（突發流量）成本省 70%。

對比：

Dedicated GPU instance（AWS p4d）：你包月，閒置也付錢。適合穩定流量
Serverless GPU（Modal）：跑才付，但有 cold start。適合突發 / 開發測試

面試陷阱：客戶問「該選哪個」——答「先量你流量分布，pareto distribution 走 serverless，平穩流量走 dedicated」。

📖 講義引用：2.2 競品格局

Open Source vs Closed Source Models（開源 vs 閉源模型）

白話：

Closed Source：OpenAI GPT、Anthropic Claude、Google Gemini——只能透過 API，模型權重看不到
Open Source：Meta Llama、Mistral、Qwen——權重可下載，可自架推論

為什麼面試會問：CloudWave 主戰場是 OSS model 推論（賣權重 host 服務）。Closed model 客戶會直接打 OpenAI API，CloudWave 沒得做。

OSS 推論平台戰場：

Together.ai：$3.05 億 B 輪，主打 200+ OSS 模型 + 自家 inference engine
Fireworks.ai：偏 latency / throughput 優化
Replicate（已被 Cloudflare 收購）：marketplace + 1000+ 社群模型
Modal：DIY，Python code 直上 GPU

容易搞混：Llama「開源」其實有 license 限制（Meta Community License），不是 MIT 或 Apache。商用要看條款。

📖 講義引用：2.2 AI 推論市場格局

RAG（檢索增強生成）

白話：模型回答前先從你的知識庫檢索相關內容，再用檢索結果生成回答。解決「模型不知道你公司私有資料」的問題。

為什麼面試會問：B2B AI 應用的標配。客戶買「AI 客服」「AI 內部知識搜尋」的核心架構。

典型流程：

把公司文件切片 → embedding → 存向量資料庫
用戶問問題 → embedding → 找最相似 N 個片段
把片段 + 問題塞進 prompt → LLM 回答

面試陷阱：客戶問「你們 LLM 會不會 hallucinate」——答「我們做 RAG + citation，回答必須附資料來源」。

📖 講義引用：2.4 資料中台 → Cortex AI SQL

Cheat Sheet（一頁回顧）

術語	一句白話	重點數值
Inference vs Training	用模型 vs 教模型	CloudWave 做前者
Latency p99	99% 比這快	講 p99 不是 p50
QPS / tokens/s	每秒吞吐	Llama 70B ~30-50 t/s baseline
GPU 利用率	GPU 真在跑的比例	80% 才有毛利
Cold Start	從閒置到能用的延遲	1s-2min 視平台
Quantization	壓精度換速度	FP16 安全 / INT4 70B 跑 24GB
FlashAttention	Attention 省記憶體加速	2-3x faster
AI Gateway	統一 API 接多家	Cloudflare 70+ 模型
Serverless GPU	跑才付錢	Modal 代表
OSS vs Closed	權重開不開	CloudWave 戰場是 OSS
RAG	先檢索再生成	B2B AI 標配

2026 競品定位（一張圖）

平台	賣點	適合誰
Cloudflare Workers AI（含 Replicate）	全球邊緣 + 70+ 模型 + AI Gateway	要全球低延遲 + 多模型切換
Modal	Serverless GPU + Python 直上	DIY、bursty workload
Together.ai	OSS 模型 inference engine 最快	量產 OSS 模型推論
Fireworks.ai	Latency / throughput 優化	對延遲極敏感
CloudWave AI 部署	（要面試問清楚 differentiator）	?

📚 回到主講義：CloudWave 產品經理面試講義 v3