37. 某公司正在訓練一個大型語音合成模型，開發團隊使用多台 GPU 進行訓練，但經常出現 GPU 記憶體不足問題。由於模型架構已固定且無法更換硬體，團隊希望在維持模型效能與收斂品質的前提下，下列哪一種方法最有效降低單張 GPU 的記憶體壓力？ (A)減少訓練資料量以降低記憶體使用； (B)採用較小的批次大小(Batch Size)並搭配資料分片(Data Sharding)分散訓練負載； (C)增加學習率(Learning Rate)以加快收斂速度； (D)改用測試資料集(Test Set)進行部分訓練以節省空間