跳到主要內容
Nora 面試實驗室

Nora 面試實驗室 · Reference

AI 推論部署術語表

Inference 平台、Latency / QPS / Cold Start、模型優化、AI Gateway、2026 競品格局——AI 模型部署 PM 必懂的所有術語白話版。

2026-04-27Nora 面試實驗室Noindex
這頁是公開可分享頁面,但已加上 noindex,方便朋友互傳連結,同時降低被搜尋引擎主動收錄的機率。

AI 推論部署術語表

CloudWave 的 AI 模型部署產品線必背。 2026 是「Inference 戰爭年」——Replicate 被收購、Together $3 億、Fireworks 跑分、Cloudflare AI Gateway 統一推論層。


Inference vs Training(推論 vs 訓練)

白話

  • Training(訓練):教模型「該怎麼做」。一次性、超貴 GPU、跑數天到數週。產出 model.bin
  • Inference(推論):用訓練好的模型「真的去做」。每天跑、便宜很多、毫秒到秒。產出 API response。

為什麼面試會問:CloudWave 做的是 Inference 部署,不是訓練平台。搞錯了你連產品定位都答不出來。

容易搞混:客戶以為「我要訓練一個模型」就找 inference 平台——錯。Inference 平台是把已訓好的模型 host 起來給人用。

對比實例:OpenAI 訓 GPT-5 用幾千張 H100 跑幾週(training)→ 訓完 host 起來給全世界用(inference)。

📖 講義引用:2.2 AI 模型部署


Latency p50 / p99(延遲百分位)

白話

  • p50(中位數):50% 的請求比這個快(典型體驗)
  • p99:99% 的請求比這個快(最差體驗,剩 1% 就是長尾)

為什麼面試會問:B2B 客戶最在意「最差能多差」。p50 50ms 但 p99 5 秒 = 100 個請求有 1 個慢到客戶想砸電腦。

面試陷阱:客戶問 latency,你只答 p50 = 初階。資深答「p50 80ms / p99 200ms / SLO 是 p99 < 500ms」。

為什麼 p99 重要:B2B 客戶 server 一秒可能打你 1000 次 → 平均下來「每秒都會碰到 10 次最慢的請求」。

📖 講義引用:2.2 關鍵指標


QPS / Tokens-per-second(吞吐量)

白話

  • QPS(Queries Per Second):每秒處理多少請求
  • Tokens-per-second:LLM 每秒吐出多少 token(中文 1 字 ≈ 1.5 tokens)

為什麼面試會問:客戶採購會問「你 QPS 上限多少」「我每秒打 10 萬次你撐不撐得住」。

參考數值

  • LLM 推論 tokens/sec:Llama 3 70B 用 H100 約 30-50 tokens/s;用 quantization + FlashAttention 可破 200 tokens/s
  • 圖片生成 QPS:Stable Diffusion XL 在單張 A100 約 0.3-1 QPS

面試加分:能講「我們用 batching + continuous batching 把 throughput 提到 X 倍」。

📖 講義引用:2.2 關鍵指標


GPU 利用率(GPU Utilization)

白話:你的 GPU 卡真正在跑運算的時間佔比。閒置中(idle)就是燒錢。

為什麼面試會問:GPU 一張一個月幾千美元,利用率 30% vs 80% 直接決定毛利。CloudWave AI 部署服務的 unit economics 完全靠這個。

怎麼提升

  • Batching:累積幾個請求一起跑(latency vs throughput trade-off)
  • Continuous batching:vLLM 等技術不等批次,新請求隨時 join
  • Multi-tenancy:一張 GPU 跑多個客戶模型

面試陷阱:「客戶要 dedicated GPU」= 利用率低毛利差;「multi-tenant」= 利用率高但要解 noisy neighbor。

📖 講義引用:2.2 關鍵指標


Cold Start(冷啟動)

白話:服務從「閒置 / 沒實例」狀態到「能處理第一個請求」的延遲。

為什麼面試會問:Serverless GPU 平台(Modal / Replicate)的最大痛點。冷啟動 30 秒 = 客戶第一個請求等到天荒地老。

參考數值

  • Modal:聲稱 sub-second(用各種 trick)
  • Replicate(Cloudflare 整合前):常見 5-30 秒
  • 自架 K8s GPU pod:30 秒到 2 分鐘
  • AWS Lambda(CPU only):~100-500ms

怎麼解

  • Pre-warmed instances(保留閒置 GPU,貴)
  • Snapshot-based start(保存記憶體狀態快速喚醒)
  • Lazy-load model weights(先啟動服務再載權重)

📖 講義引用:2.2 關鍵指標


Quantization(量化)

白話:把模型參數從 float32(32 位元)壓成 int8 或 int4(8 / 4 位元),犧牲精度換速度跟省記憶體

為什麼面試會問:2026 開源模型推論的核心優化技術。能讓 70B 模型跑在消費級 GPU 上。

常見量化

  • FP16 / BF16:精度幾乎無損,速度 2x,記憶體省一半。最安全選項。
  • INT8:精度小損(~1% accuracy drop),速度 3-4x
  • INT4 (GPTQ / AWQ):精度可損 2-5%,速度 4-8x,70B 模型可跑在 24GB 卡上

面試陷阱:客戶問「你支援 quantization 嗎」要會講「FP16 default、INT8 提供選項、INT4 可選但 accuracy benchmark 客戶要自己驗」。

📖 講義引用:2.5 必背技術名詞


FlashAttention

白話:一個讓 Transformer 模型 attention 計算省記憶體 + 跑更快的演算法。2022 出 v1,2023 v2,2024 v3。

為什麼面試會問:Together.ai 拿這個當賣點,宣稱「比 hyperscaler inference 快 2-3x」。是 OSS 推論平台的差異化關鍵。

怎麼跟工程討論

  • 你產品有沒有 baked-in FlashAttention-3?
  • 支援哪些架構(Llama / Mistral / Qwen)?
  • 跟 vLLM 的 PagedAttention 是什麼關係?

容易搞混:FlashAttention 是「怎麼算 attention」的演算法;PagedAttention 是「怎麼管 KV cache」的演算法。兩個常一起用。

📖 講義引用:2.2 競品格局


AI Gateway / Multi-model Routing(多模型路由)

白話:一個「中央 API」幫客戶自動選最便宜 / 最快 / 最準的模型,背後接好幾家 provider。

為什麼面試會問:Cloudflare 2026「Agents Week」推 AI Gateway,單一 API 整合 70+ 模型 / 12+ provider——這是「統一推論層」戰略。CloudWave 不做這個就要被打。

功能範例

  • 一行 code 切換 GPT-5 / Claude 4.7 / Llama 70B
  • 自動 fallback:Provider A 掛了切 B
  • 統一計費(不用每家 API key 各管)
  • Prompt cache(重複 prompt 直接命中快取,省錢)
  • Rate limit / Cost guardrail

面試加分:能反問「CloudWave 有 Gateway 形態的 routing layer 嗎?」

📖 講義引用:2.3 CDN / Edge / AI Gateway


Serverless GPU

白話:你不用養機器,code 上傳後平台自動分配 GPU 跑,用多少算多少(per-second 計費)。

為什麼面試會問:Modal 是這領域代表。對 bursty workload(突發流量)成本省 70%。

對比

  • Dedicated GPU instance(AWS p4d):你包月,閒置也付錢。適合穩定流量
  • Serverless GPU(Modal):跑才付,但有 cold start。適合突發 / 開發測試

面試陷阱:客戶問「該選哪個」——答「先量你流量分布,pareto distribution 走 serverless,平穩流量走 dedicated」。

📖 講義引用:2.2 競品格局


Open Source vs Closed Source Models(開源 vs 閉源模型)

白話

  • Closed Source:OpenAI GPT、Anthropic Claude、Google Gemini——只能透過 API,模型權重看不到
  • Open Source:Meta Llama、Mistral、Qwen——權重可下載,可自架推論

為什麼面試會問:CloudWave 主戰場是 OSS model 推論(賣權重 host 服務)。Closed model 客戶會直接打 OpenAI API,CloudWave 沒得做。

OSS 推論平台戰場

  • Together.ai:$3.05 億 B 輪,主打 200+ OSS 模型 + 自家 inference engine
  • Fireworks.ai:偏 latency / throughput 優化
  • Replicate(已被 Cloudflare 收購):marketplace + 1000+ 社群模型
  • Modal:DIY,Python code 直上 GPU

容易搞混:Llama「開源」其實有 license 限制(Meta Community License),不是 MIT 或 Apache。商用要看條款。

📖 講義引用:2.2 AI 推論市場格局


RAG(檢索增強生成)

白話:模型回答前先從你的知識庫檢索相關內容,再用檢索結果生成回答。解決「模型不知道你公司私有資料」的問題。

為什麼面試會問:B2B AI 應用的標配。客戶買「AI 客服」「AI 內部知識搜尋」的核心架構。

典型流程

  1. 把公司文件切片 → embedding → 存向量資料庫
  2. 用戶問問題 → embedding → 找最相似 N 個片段
  3. 把片段 + 問題塞進 prompt → LLM 回答

面試陷阱:客戶問「你們 LLM 會不會 hallucinate」——答「我們做 RAG + citation,回答必須附資料來源」。

📖 講義引用:2.4 資料中台 → Cortex AI SQL


Cheat Sheet(一頁回顧)

術語一句白話重點數值
Inference vs Training用模型 vs 教模型CloudWave 做前者
Latency p9999% 比這快講 p99 不是 p50
QPS / tokens/s每秒吞吐Llama 70B ~30-50 t/s baseline
GPU 利用率GPU 真在跑的比例80% 才有毛利
Cold Start從閒置到能用的延遲1s-2min 視平台
Quantization壓精度換速度FP16 安全 / INT4 70B 跑 24GB
FlashAttentionAttention 省記憶體加速2-3x faster
AI Gateway統一 API 接多家Cloudflare 70+ 模型
Serverless GPU跑才付錢Modal 代表
OSS vs Closed權重開不開CloudWave 戰場是 OSS
RAG先檢索再生成B2B AI 標配

2026 競品定位(一張圖)

平台賣點適合誰
Cloudflare Workers AI(含 Replicate)全球邊緣 + 70+ 模型 + AI Gateway要全球低延遲 + 多模型切換
ModalServerless GPU + Python 直上DIY、bursty workload
Together.aiOSS 模型 inference engine 最快量產 OSS 模型推論
Fireworks.aiLatency / throughput 優化對延遲極敏感
CloudWave AI 部署(要面試問清楚 differentiator)?

📚 回到主講義CloudWave 產品經理面試講義 v3