18. 當 Transformer 模型發生「注意力分布過於平均(Attention Collapse)」的情形時,導致模型無法有效聚焦於關鍵資訊,下列哪 一項策略可有效改善此問題?
(A)提高 Query-Key 點積(Dot Product)的縮放常數;
(B)在 Softmax 前加入高斯雜訊(Gaussian Noise);
(C)使用 ReLU 函數取代 Softmax;
(D)對注意力權重施加稀疏化約束(Sparsity Constraint)

答案:登入後查看
統計: A(1), B(0), C(2), D(8), E(0) #3773569

私人筆記 (共 1 筆)

私人筆記#8068499
未解鎖
為什麼選 (D)?核心邏輯解析 要理解這...
(共 1000 字,隱藏中)
前往觀看
0
0