AI新研究：語言模型引入睡眠鞏固機制，解決長期記憶與深度推理難題

最新研究提出一種讓大型語言模型（LLM）「睡眠」的機制，以解決其在處理長期任務時記憶力下降的問題。此方法透過離線鞏固過程，將短期上下文轉換為持久記憶，顯著提升了模型的推理能力。

這項受生物學啟發的方法，讓模型在處理資訊的過程中定期進入「睡眠」狀態，在此期間它不接收外部輸入，而是專注於將累積的短期記憶鞏固成長期知識，從而克服了傳統模型在長序列任務中的限制。

效能瓶頸：基於Transformer的語言模型，其注意力機制在處理長篇內容時效能會下降。
睡眠機制：研究提出一種模仿生物睡眠的鞏固機制，模型會定期將近期上下文轉換為持久的快速權重。
離線處理：在「睡眠」期間，模型對累積的上下文進行離線循環處理，更新其內部狀態，類似於記憶鞏固。
實驗證明：在多項合成任務及數學推理任務中，增加模型的睡眠持續時間能有效提高其表現，尤其是在需要深度推理的問題上。

模仿生物睡眠的鞏固機制

目前主流的大型語言模型多基於Transformer架構，它將上下文儲存在注意力緩存中。然而，這種機制的計算成本會隨著上下文長度增加而急劇上升。為了解決此問題，研究人員從動物的記憶鞏固過程中獲得啟發，特別是睡眠期間海馬體將短期記憶轉化為長期皮質突觸權重的過程。

研究團隊提出一種名為「睡眠」的機制。當模型的上下文窗口在推理過程中被填滿時，模型會進入睡眠狀態。在此階段，模型會對已累積的上下文執行多次前向傳遞，透過學習到的規則遞歸更新其快速權重。這個過程完成後，上下文窗口會被清除，模型帶著更新後的權重恢復運作，準備處理新的資訊。

提升深度推理能力

研究發現，傳統混合模型即使擁有足夠的記憶體容量，在面對需要深度推理的任務時，性能依然會下降。這表明瓶頸不僅在於儲存資訊，更在於將這些資訊轉化為有用內部狀態所需的計算量不足。

新的睡眠架構透過在睡眠階段分配更多循環計算，讓模型有更充分的步驟將上下文轉換為能支援後續預測的內部表示。這意味著額外的計算被轉移到了離線的鞏固階段，而在清醒預測時仍能保持快速響應。實驗結果顯示，增加循環次數或「睡眠持續時間」，能顯著改善模型在複雜任務上的推理能力，尤其是在需要最深層次推理的問題上，效益最為明顯。

總體而言，這項研究證明了類似睡眠的離線循環過程，可以有效地將瞬態的上下文組織成穩固的權重，從而支援更複雜和長期的後續推理任務。

來源：arxiv.org

封面來源：Adobe Stock

AI研究：語言模型引入睡眠機制提升記憶

模仿生物睡眠的鞏固機制

提升深度推理能力

紐約

三藩市

洛杉磯

AI研究：語言模型引入睡眠機制提升記憶

模仿生物睡眠的鞏固機制

提升深度推理能力

相關新聞:

紐約

三藩市

洛杉磯