LLM 架構深度剖析：從 Transformer 到 MoE 的演進之路

本報告深入探討大型語言模型（LLM）的架構演進史。從 2017 年奠定基礎的 Transformer 架構開始，分析其如何透過自注意力機制解決序列處理的並行化難題。隨後，針對 Scaling Law 帶來的計算瓶頸，探討 Sparse Attention 與 Paged Attention 等效率優化技術。最後，重點分析目前主流的 Mixture of Experts (MoE) 技術，探討其如何在大規模參數與推理成本之間取得平衡，並展望 2026 年後的架構創新方向。

April 1, 2026 • 232 • 2

1. Transformer 架構：現代 AI 的大霹靂

在 2017 年《Attention Is All You Need》論文發表前，自然語言處理（NLP）主要依賴循環神經網路（RNN）與長短期記憶網路（LSTM）。然而，RNN 的順序處理特性導致了兩個致命缺陷：第一，難以捕捉長距離的語義依賴；第二，無法利用 GPU 進行大規模並行計算。Transformer 的出現，徹底改變了這一格局。

1.1 Attention Mechanism 的數學本質

Transformer 的靈魂在於自注意力機制（Self-Attention）。其核心思想是：序列中的每一個 Token，都應該根據上下文的其他 Token 來決定自己的表徵。

數學上，這透過將輸入向量映射為三個矩陣來實現：查詢（Query, $Q$）、鍵（Key, $K$）與值（Value, $V$）。

$$Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

當我們計算 $QK^T$ 時，本質上是在計算序列中兩兩 Token 之間的相似度權重。$\sqrt{d_k}$ 的縮放因子是為了確保在維度過高時，Softmax 的梯度不會進入飽和區。這種機制讓模型具備了 $O(1)$ 的長程關聯能力，無論兩個詞相隔多遠，都能在一個步驟內建立聯繫。

1.2 多頭注意力（Multi-Head Attention）的語義分工

單一的注意力頭容易陷入局部特徵。多頭注意力機制（MHA）允許模型在不同的子空間中並行學習資訊。例如，頭 A 可能學習語法結構（主謂關係），頭 B 可能學習代名詞指代（Anaphora Resolution），頭 C 則學習情感色彩。這種並行化不僅增強了模型的表達能力，也完美契合了現代計算硬體的張量計算特性。

2. 效率優化技術：應對 $O(n^2)$ 的挑戰

隨著模型對長文本（Long Context）的需求日益增加，Transformer 原生的全注意力機制遇到了嚴峻的挑戰：其計算複雜度與記憶體佔用隨序列長度 $n$ 呈平方級增長（$O(n^2)$）。這意味著當文本長度從 1k 增加到 128k 時，資源消耗將增加 16,384 倍。

2.1 Sparse Attention：從全局到局部

為了降低複雜度，研究者提出了稀疏注意力（Sparse Attention）。其原理是不再讓每個 Token 與所有其他 Token 計算關聯，而是僅關注特定的模式：

滑動窗口（Sliding Window）：僅關注鄰近的 Token。
擴張滑動窗口（Dilated Window）：間隔性地關注 Token，以擴大感受野。
全局錨點（Global Tokens）：設置少數關鍵 Token 與所有位置關聯。

這類技術（如 Longformer, BigBird）將複雜度降至 $O(n)$ 或 $O(n \log n)$，使得處理百萬級長文本成為可能。

2.2 記憶體管理：從 FlashAttention 到 Paged Attention

硬體層面的優化同樣關鍵。FlashAttention 透過 IO 感知（IO-Awareness）技術，減少了 GPU 高速緩存（SRAM）與顯存（HBM）之間的數據交換，在不損失精度的情況下大幅提升了訓練與推理速度。

而在推理端，Paged Attention（由 vLLM 提出）則是借鑒了作業系統的虛擬記憶體管理思想。它將鍵值快取（KV Cache）分割成不連續的「分頁」，動態分配記憶體，徹底解決了顯存碎片化問題，讓單張顯卡的吞吐量（Throughput）提升了數倍，成為 2026 年企業級部署的標配。

3. Mixture of Experts (MoE)：規模化與效率的終極平衡

當 Scaling Law 揭示了「參數越多，智慧越強」的真理後，開發者面臨一個難題：如何運行一個擁有兆級參數（Trillion Parameters）的模型，而不會讓單次推理的電費超過產出的價值？**混合專家模型（MoE）**給出了答案。

3.1 MoE 的基本原理：條件計算

MoE 將原本巨大的前饋網路（FFN）拆分為多個小的、獨立的神經網路，稱為「專家（Experts）」。在每一層中，引入一個門控機制（Gating Mechanism / Router）。

當輸入數據傳入時，路由器會計算權重，僅激活其中最強、最相關的 $k$ 個專家（通常 $k=1$ 或 $2$）。這就是條件計算（Conditional Computing）。

優勢：模型總參數可以極大（如 1.6 兆），但每次推理激活的參數僅為一小部分（如 1000 億）。這實現了「大模型的腦容量，小模型的運行速度」。

3.2 負載均衡與專家崩塌（Expert Collapse）

MoE 的訓練極具挑戰。如果門控機制傾向於只選擇少數幾個表現較好的專家，會導致這些專家過擬合，而其他專家則得不到訓練（崩塌）。為了避免這種情況，開發者引入了 Auxiliary Loss（輔助損失函數），強制模型在訓練期間均勻分配任務給所有專家，確保每個專家都能發展出特定的專長。

4. 2026 年的技術匯流：多模態與長脈絡

進入 2026 年，LLM 架構不再僅僅處理文字。GPT-5、Llama 4 與 Gemini 2.5 均採用了原生多模態架構。

4.1 統一標記化（Unified Tokenization）

最新的架構不再將圖像與文字分開處理，而是透過視覺編碼器將圖像切分為 Patch，並轉化為與文字空間一致的 Token。這讓 Transformer 能夠在同一個 Attention 空間內同時理解視覺與聽覺資訊，實現了真正的語義對齊。

4.2 1M+ Context Window 的常態化

透過 RPE（Relative Positional Encoding）與 RoPE（Rotary Positional Embedding）的優化，以及上述的 Paged Attention，2026 年的主流模型已普遍支援 100 萬至 1000 萬個 Token 的上下文。這意味著你可以將整座圖書館的圖書或數百小時的影片一次性投入模型進行分析，而架構依然能精準定位資訊（如 Needle In A Haystack 測試）。

5. 未來趨勢：後 Transformer 時代？

儘管 Transformer 統治了近十年，但新的挑戰者已經出現。

SSM (State Space Models) 與 Mamba：Mamba 架構展現了在長文本處理上超越 $O(n^2)$ 的潛力，且具備推理時的線性擴展性。
神經元壓縮與動態架構：未來的模型可能具備「自我剪枝」能力，根據任務難度動態調整運算深度。
端側 AI (On-device AI)：隨著 B200 等高效能晶片的普及，如何在手機端運行輕量化的 MoE 模型將成為下一個戰場。

結論

從 Transformer 的全局注意力，到 MoE 的稀疏激活，LLM 的演進始終圍繞著**「規模」與「效率」**的博弈。架構的創新讓我們能以更低的能耗獲得更高的智慧。展望未來，隨著多模態的深度整合與新型架構的探索，AI 將不再僅僅是模仿人類對話，而是進化為能處理物理世界複雜邏輯的通用智慧實體。