Attention 的出現,就像有人告訴你:「不用每個字都照順序讀完,你可以直接跳去看重要的地方。」
舉個開發時的體驗:
換句話說,Attention 讓模型第一次有了「選擇的自由」:它不再被時間順序綁死。
Transformer 的關鍵洞察
2017 年的論文標題很狂:《Attention is All You Need》。但它真的做了一件極簡又強大的事:
拿掉了循環(RNN)
用多頭注意力(Multi-head Attention)分工
層層堆疊,形成深度結構
這對開發者的意義
我自己最大的感受是:
這種「地圖式思維」徹底改變了我設計系統的方式。
在以前,我會想著如何讓模型「記得更多」。現在,我會想「如何讓模型同時看到更多」。
今天我們談到的 GPT、BERT、Stable Diffusion,本質上都站在 Transformer 的肩膀上。
所以如果你問我:為什麼 Attention 改變了一切?
我的答案很簡單:因為它讓 AI 從「線性讀者」變成了「全局觀察者」。
而這一轉變,才是讓生成式 AI 真正起飛的引擎。