AI 推論部署術語表
CloudWave 的 AI 模型部署產品線必背。 2026 是「Inference 戰爭年」——Replicate 被收購、Together $3 億、Fireworks 跑分、Cloudflare AI Gateway 統一推論層。
Inference vs Training(推論 vs 訓練)
白話:
- Training(訓練):教模型「該怎麼做」。一次性、超貴 GPU、跑數天到數週。產出
model.bin。 - Inference(推論):用訓練好的模型「真的去做」。每天跑、便宜很多、毫秒到秒。產出 API response。
為什麼面試會問:CloudWave 做的是 Inference 部署,不是訓練平台。搞錯了你連產品定位都答不出來。
容易搞混:客戶以為「我要訓練一個模型」就找 inference 平台——錯。Inference 平台是把已訓好的模型 host 起來給人用。
對比實例:OpenAI 訓 GPT-5 用幾千張 H100 跑幾週(training)→ 訓完 host 起來給全世界用(inference)。
📖 講義引用:2.2 AI 模型部署
Latency p50 / p99(延遲百分位)
白話:
- p50(中位數):50% 的請求比這個快(典型體驗)
- p99:99% 的請求比這個快(最差體驗,剩 1% 就是長尾)
為什麼面試會問:B2B 客戶最在意「最差能多差」。p50 50ms 但 p99 5 秒 = 100 個請求有 1 個慢到客戶想砸電腦。
面試陷阱:客戶問 latency,你只答 p50 = 初階。資深答「p50 80ms / p99 200ms / SLO 是 p99 < 500ms」。
為什麼 p99 重要:B2B 客戶 server 一秒可能打你 1000 次 → 平均下來「每秒都會碰到 10 次最慢的請求」。
📖 講義引用:2.2 關鍵指標
QPS / Tokens-per-second(吞吐量)
白話:
- QPS(Queries Per Second):每秒處理多少請求
- Tokens-per-second:LLM 每秒吐出多少 token(中文 1 字 ≈ 1.5 tokens)
為什麼面試會問:客戶採購會問「你 QPS 上限多少」「我每秒打 10 萬次你撐不撐得住」。
參考數值:
- LLM 推論 tokens/sec:Llama 3 70B 用 H100 約 30-50 tokens/s;用 quantization + FlashAttention 可破 200 tokens/s
- 圖片生成 QPS:Stable Diffusion XL 在單張 A100 約 0.3-1 QPS
面試加分:能講「我們用 batching + continuous batching 把 throughput 提到 X 倍」。
📖 講義引用:2.2 關鍵指標
GPU 利用率(GPU Utilization)
白話:你的 GPU 卡真正在跑運算的時間佔比。閒置中(idle)就是燒錢。
為什麼面試會問:GPU 一張一個月幾千美元,利用率 30% vs 80% 直接決定毛利。CloudWave AI 部署服務的 unit economics 完全靠這個。
怎麼提升:
- Batching:累積幾個請求一起跑(latency vs throughput trade-off)
- Continuous batching:vLLM 等技術不等批次,新請求隨時 join
- Multi-tenancy:一張 GPU 跑多個客戶模型
面試陷阱:「客戶要 dedicated GPU」= 利用率低毛利差;「multi-tenant」= 利用率高但要解 noisy neighbor。
📖 講義引用:2.2 關鍵指標
Cold Start(冷啟動)
白話:服務從「閒置 / 沒實例」狀態到「能處理第一個請求」的延遲。
為什麼面試會問:Serverless GPU 平台(Modal / Replicate)的最大痛點。冷啟動 30 秒 = 客戶第一個請求等到天荒地老。
參考數值:
- Modal:聲稱 sub-second(用各種 trick)
- Replicate(Cloudflare 整合前):常見 5-30 秒
- 自架 K8s GPU pod:30 秒到 2 分鐘
- AWS Lambda(CPU only):~100-500ms
怎麼解:
- Pre-warmed instances(保留閒置 GPU,貴)
- Snapshot-based start(保存記憶體狀態快速喚醒)
- Lazy-load model weights(先啟動服務再載權重)
📖 講義引用:2.2 關鍵指標
Quantization(量化)
白話:把模型參數從 float32(32 位元)壓成 int8 或 int4(8 / 4 位元),犧牲精度換速度跟省記憶體。
為什麼面試會問:2026 開源模型推論的核心優化技術。能讓 70B 模型跑在消費級 GPU 上。
常見量化:
- FP16 / BF16:精度幾乎無損,速度 2x,記憶體省一半。最安全選項。
- INT8:精度小損(~1% accuracy drop),速度 3-4x
- INT4 (GPTQ / AWQ):精度可損 2-5%,速度 4-8x,70B 模型可跑在 24GB 卡上
面試陷阱:客戶問「你支援 quantization 嗎」要會講「FP16 default、INT8 提供選項、INT4 可選但 accuracy benchmark 客戶要自己驗」。
📖 講義引用:2.5 必背技術名詞
FlashAttention
白話:一個讓 Transformer 模型 attention 計算省記憶體 + 跑更快的演算法。2022 出 v1,2023 v2,2024 v3。
為什麼面試會問:Together.ai 拿這個當賣點,宣稱「比 hyperscaler inference 快 2-3x」。是 OSS 推論平台的差異化關鍵。
怎麼跟工程討論:
- 你產品有沒有 baked-in FlashAttention-3?
- 支援哪些架構(Llama / Mistral / Qwen)?
- 跟 vLLM 的 PagedAttention 是什麼關係?
容易搞混:FlashAttention 是「怎麼算 attention」的演算法;PagedAttention 是「怎麼管 KV cache」的演算法。兩個常一起用。
📖 講義引用:2.2 競品格局
AI Gateway / Multi-model Routing(多模型路由)
白話:一個「中央 API」幫客戶自動選最便宜 / 最快 / 最準的模型,背後接好幾家 provider。
為什麼面試會問:Cloudflare 2026「Agents Week」推 AI Gateway,單一 API 整合 70+ 模型 / 12+ provider——這是「統一推論層」戰略。CloudWave 不做這個就要被打。
功能範例:
- 一行 code 切換 GPT-5 / Claude 4.7 / Llama 70B
- 自動 fallback:Provider A 掛了切 B
- 統一計費(不用每家 API key 各管)
- Prompt cache(重複 prompt 直接命中快取,省錢)
- Rate limit / Cost guardrail
面試加分:能反問「CloudWave 有 Gateway 形態的 routing layer 嗎?」
📖 講義引用:2.3 CDN / Edge / AI Gateway
Serverless GPU
白話:你不用養機器,code 上傳後平台自動分配 GPU 跑,用多少算多少(per-second 計費)。
為什麼面試會問:Modal 是這領域代表。對 bursty workload(突發流量)成本省 70%。
對比:
- Dedicated GPU instance(AWS p4d):你包月,閒置也付錢。適合穩定流量
- Serverless GPU(Modal):跑才付,但有 cold start。適合突發 / 開發測試
面試陷阱:客戶問「該選哪個」——答「先量你流量分布,pareto distribution 走 serverless,平穩流量走 dedicated」。
📖 講義引用:2.2 競品格局
Open Source vs Closed Source Models(開源 vs 閉源模型)
白話:
- Closed Source:OpenAI GPT、Anthropic Claude、Google Gemini——只能透過 API,模型權重看不到
- Open Source:Meta Llama、Mistral、Qwen——權重可下載,可自架推論
為什麼面試會問:CloudWave 主戰場是 OSS model 推論(賣權重 host 服務)。Closed model 客戶會直接打 OpenAI API,CloudWave 沒得做。
OSS 推論平台戰場:
- Together.ai:$3.05 億 B 輪,主打 200+ OSS 模型 + 自家 inference engine
- Fireworks.ai:偏 latency / throughput 優化
- Replicate(已被 Cloudflare 收購):marketplace + 1000+ 社群模型
- Modal:DIY,Python code 直上 GPU
容易搞混:Llama「開源」其實有 license 限制(Meta Community License),不是 MIT 或 Apache。商用要看條款。
📖 講義引用:2.2 AI 推論市場格局
RAG(檢索增強生成)
白話:模型回答前先從你的知識庫檢索相關內容,再用檢索結果生成回答。解決「模型不知道你公司私有資料」的問題。
為什麼面試會問:B2B AI 應用的標配。客戶買「AI 客服」「AI 內部知識搜尋」的核心架構。
典型流程:
- 把公司文件切片 → embedding → 存向量資料庫
- 用戶問問題 → embedding → 找最相似 N 個片段
- 把片段 + 問題塞進 prompt → LLM 回答
面試陷阱:客戶問「你們 LLM 會不會 hallucinate」——答「我們做 RAG + citation,回答必須附資料來源」。
📖 講義引用:2.4 資料中台 → Cortex AI SQL
Cheat Sheet(一頁回顧)
| 術語 | 一句白話 | 重點數值 |
|---|---|---|
| Inference vs Training | 用模型 vs 教模型 | CloudWave 做前者 |
| Latency p99 | 99% 比這快 | 講 p99 不是 p50 |
| QPS / tokens/s | 每秒吞吐 | Llama 70B ~30-50 t/s baseline |
| GPU 利用率 | GPU 真在跑的比例 | 80% 才有毛利 |
| Cold Start | 從閒置到能用的延遲 | 1s-2min 視平台 |
| Quantization | 壓精度換速度 | FP16 安全 / INT4 70B 跑 24GB |
| FlashAttention | Attention 省記憶體加速 | 2-3x faster |
| AI Gateway | 統一 API 接多家 | Cloudflare 70+ 模型 |
| Serverless GPU | 跑才付錢 | Modal 代表 |
| OSS vs Closed | 權重開不開 | CloudWave 戰場是 OSS |
| RAG | 先檢索再生成 | B2B AI 標配 |
2026 競品定位(一張圖)
| 平台 | 賣點 | 適合誰 |
|---|---|---|
| Cloudflare Workers AI(含 Replicate) | 全球邊緣 + 70+ 模型 + AI Gateway | 要全球低延遲 + 多模型切換 |
| Modal | Serverless GPU + Python 直上 | DIY、bursty workload |
| Together.ai | OSS 模型 inference engine 最快 | 量產 OSS 模型推論 |
| Fireworks.ai | Latency / throughput 優化 | 對延遲極敏感 |
| CloudWave AI 部署 | (要面試問清楚 differentiator) | ? |
📚 回到主講義:CloudWave 產品經理面試講義 v3