18. 當 Transformer 模型發生「注意力分布過於平均(Attention Collapse)」的情形時，導致模型無法有效聚焦於關鍵資訊，下列哪一項策略可有效改善此問題？ (A)提高 Query-Key 點積(Dot Product)的縮放常數； (B)在 Softmax 前加入高斯雜訊(Gaussian Noise)； (C)使用 ReLU 函數取代 Softmax； (D)對注意力權重施加稀疏化約束(Sparsity Constraint)