MoE

1
2026

LLM 架構深度剖析:從 Transformer 到 MoE 的演進之路

1. Transformer 架構:現代 AI 的大霹靂 在 2017 年《Attention Is All You Need》論文發表前,自然語言處理(NLP)主要依賴循環神經網路(RNN)與長短期記憶網路(LSTM)。然而,RNN 的順序處理特性導致了兩個致命缺陷:第一,難以 …