光子人工智能在加速機器學習(xi) 方麵引起了相當大的興(xing) 趣;然而,這種獨特的光學特性還沒有被充分利用來實現更高階的功能。混沌巡回(Chaotic Itinerancy)及其在多個(ge) 準吸引子之間的自發瞬態動力學,可用於(yu) 實現類腦功能。
近日,來自日本埼玉大學的研究人員研究了一種控製多模半導體(ti) 激光器中混沌巡回的方法,以解決(jue) 機器學習(xi) 任務,即多臂老虎機(Multiarmed Bandit)問題,這是強化學習(xi) 的基礎。所提出的方法在通過光注入控製的模式競爭(zheng) 動力學中使用混沌巡回運動。
研究發現該探索機製與(yu) 傳(chuan) 統的搜索算法完全不同,且具有高度可擴展性,優(you) 於(yu) 針對大規模老虎機問題的傳(chuan) 統方法。這項研究為(wei) 使用混沌巡回有效解決(jue) 作為(wei) 光子硬件加速器的複雜機器學習(xi) 任務鋪平了道路。
該研究以「Controlling chaotic itinerancy in laser dynamics for reinforcement learning」為(wei) 題,於(yu) 2022 年 12 月 7 日發布在《Science Advances》上。
論文鏈接:https://www.science.org/doi/10.1126/sciadv.abn8325
多臂老虎機、混沌巡回與(yu) 光子加速器
光子加速器通過使用光子技術克服半導體(ti) 技術中集成電路密度的限製,提供快速高效的信息處理,被稱為(wei) 摩爾定律的終結。光子加速器可以被認為(wei) 是使用光信號與(yu) 電子計算相結合的預處理器。
在強化學習(xi) (RL)中,智能體(ti) 通過反複試驗學習(xi) 行為(wei) ,以最大限度地從(cong) 與(yu) 動態環境的交互中獲得回報。強化學習(xi) 已被廣泛用於(yu) 圍棋遊戲、彈性光網絡中的信號傳(chuan) 輸和機器人控製中獲得卓越的性能。
多臂老虎機問題是概率論中一個(ge) 經典問題,也屬於(yu) 強化學習(xi) 的範疇。設想,一個(ge) 賭徒麵前有 N 個(ge) 老虎機,事先他不知道每台老虎機的真實盈利情況,他如何根據每次玩老虎機的結果來選擇下次拉哪台或者是否停止賭博,來最大化自己的從(cong) 頭到尾的收益。
解決(jue) 多臂老虎機問題對於(yu) 光子決(jue) 策至關(guan) 重要。這個(ge) 問題的目標是最大化來自多項選擇或老虎機的總獎勵,其命中概率是未知的。多臂老虎機問題解決(jue) 了強化學習(xi) 中最關(guan) 鍵的挑戰之一,即最大化總獎勵的探索-利用困境。使用光子動力係統已經成功地實現了選擇具有最高命中概率的老虎機。
決(jue) 策的可擴展性,即如何應對越來越多的老虎機或選擇,是至關(guan) 重要的。
混沌巡回是一種現象,其中多個(ge) 不穩定的吸引子(稱為(wei) 準吸引子)共存,並且動力係統的變量圍繞這些準吸引子移動。混沌巡回被認為(wei) 對於(yu) 理解大腦中自發活動的出現至關(guan) 重要。此外,混沌巡回已被用於(yu) 實現聯想記憶。最近,通過使用混沌巡回設計了自發行為(wei) 切換。通過用於(yu) 機器學習(xi) 的實用工程平台實現的混沌巡回是實現大腦高功能的一種有前途且令人興(xing) 奮的方法。
在光子係統中觀察到混沌巡回作為(wei) 多模半導體(ti) 激光器中多個(ge) 縱模之間的混沌模式競爭(zheng) 動力學。多模半導體(ti) 激光器中的混沌模式競爭(zheng) 動力學可能是實現有效自發搜索能力的合適平台,以在存在多重不確定性的情況下探索最優(you) 選擇。盡管確定性混沌係統的可控性會(hui) 導致混沌巡回的功能性,但在基於(yu) 強化學習(xi) 的應用中開發一種控製混沌巡回的方案是一項相當大的挑戰。
在此,研究人員設計並進行了研究,以通過在具有光學反饋和注入的多模半導體(ti) 激光器中通過數值和實驗控製混沌巡回(即模式競爭(zheng) 動力學)來評估光子決(jue) 策的可行性。通過使用混沌巡回對多種選擇進行有效探索來解決(jue) 作為(wei) 強化學習(xi) 基礎的多臂強老虎機問題。研究了選擇數量的可擴展性,並證明基於(yu) 混沌巡回的方法優(you) 於(yu) 置信上限 1 (UCB1) 調整方法,後者是最著名的軟件算法之一。
本研究旨在研究混沌巡回,以利用激光動力學的獨特物理特性,並解決(jue) 光子決(jue) 策原理的可擴展性問題。據我們(men) 所知,這是使用混沌巡回加速強化學習(xi) 任務,並建立包含技術上可行的設備元素的具體(ti) 光子硬件架構的首次演示。
具有光反饋和注入的多模半導體(ti) 激光器
圖 1 示意性地顯示了具有光反饋和注入的多模半導體(ti) 激光器的係統架構和動力學。假定多模半導體(ti) 激光器的五個(ge) 縱模被激發,其光頻率表示為(wei) νm,表示第 m 個(ge) 模態強度(m = 1, 2, …, 5, νi < νj 表示 i < j)。此外,具有光頻率 fm 的單模半導體(ti) 激光器用於(yu) 光注入。單模激光器的光輸出被注入多模半導體(ti) 激光器中頻率為(wei) νm 的第 m 模態強度,以控製模式競爭(zheng) 動力學,如圖 1 所示。fm 與(yu) νm 略微失諧以實現注入鎖定。
圖 1:具有光反饋和注入的多縱模半導體(ti) 激光器。(來源:論文)
研究人員使用具有光反饋的多縱模半導體(ti) 激光器的數值模型,該模型方程是 Lang-Kobayashi 方程的擴展,這是具有光反饋的半導體(ti) 激光器的著名數值模型方程。
還添加了來自單模半導體(ti) 激光器的光注入項。模式 1、2、…、M 是從(cong) 低頻模式到高頻模式分配的。這種多模半導體(ti) 激光係統是一個(ge) 沒有光注入的自主係統。
圖 2:光反饋多模半導體(ti) 激光器的時間波形。(來源:論文)
研究了在沒有光注入的情況下發生混沌巡回時總強度在其中一種模式上的停留時間。
圖 3:不同振蕩頻率的五種模態總強度的混沌巡回。(來源:論文)
發現停留時間概率的指數關(guan) 係為(wei) P = Ae^βt,其中 t 表示停留時間,A 和 β 為(wei) 實數。當模式位於(yu) 中心時,激光動力學極有可能提供相對穩定的駐留,而當模式位於(yu) 遠離中心模式時,它會(hui) 探索其他模式。
圖 3D 顯示了模式 3 中光注入下每個(ge) 模態強度的總強度停留時間的概率。模式 3 中的停留時間通過光注入增強,概率曲線斜率的絕對值減小。相反,其他模式的停留時間減少,斜率的絕對值增加。值得注意的是,在所有模式的短(<1 ns)和長(>1 ns)停留時間區域觀察到不同的斜率。因此,混沌巡回的統計特性可以通過光注入來改變。
圖 4:五種模式的主模比與(yu) 光注入強度的函數關(guan) 係。(來源:論文)
研究得出,可以通過改變光注入強度來配置特定模式成為(wei) 主導模式的概率。換句話說,可以通過將光學注入設計為(wei) 特定模式來控製模式競爭(zheng) 動力學。
決(jue) 策性能的可擴展性
接下來,研究了老虎機數量變化時決(jue) 策性能的可擴展性。
圖 5:多模半導體(ti) 激光器(紅色)和 UCB1 調諧軟件算法(藍色)的可擴展性比較。
研究發現,當老虎機數量非常大(超過 100 台)時,使用多模激光動力學的方法優(you) 於(yu) UCB1 調優(you) 算法。UCB1-tuned 算法基於(yu) 置信區間並行選擇老虎機,逐漸降低熵;但是,無法誘導加速。因此,當老虎機數量較多時,基於(yu) 多模激光動力學的方法可以比 UCB1 調整算法更快地選擇正確的老虎機。
所提出的基於(yu) 混沌巡回的方法的標度指數為(wei) 0.70。這表明所提出的方法在大量老虎機下的優(you) 勢,與(yu) 現有的軟件算法和其他光子方法相比。UCB1 調優(you) 算法的指數為(wei) 1.06,而 UCB1 調優(you) 算法的指數為(wei) 1.06,文獻中報告的光子方法分別為(wei) 1.16 和 1.85從(cong) 許多具有未知回報的選擇中識別最佳選擇在實際應用中至關(guan) 重要,所提出的光子方法可能為(wei) 解決(jue) 此類大規模強盜問題開辟一條途徑。
研究人員所提的決(jue) 策方法可以應用於(yu) 產(chan) 生混沌巡回的其他非線性動力係統。混沌巡回支持的自發搜索能力對於(yu) 解決(jue) 複雜的機器學習(xi) 任務以及理解大腦的自發活動非常有前途。
總之,這項研究表明,多模激光動力學中的混沌巡回是解決(jue) 作為(wei) 光子加速器的機器學習(xi) 任務的有前途的資源。所提出的基於(yu) 混沌巡回的原理利用了光的高帶寬屬性以及複雜的激光動力學,這通過停留時間統計和熵分析得到體(ti) 現。
基於(yu) 通過本研究獲得的見解,所提出的結合混沌巡回和複雜激光動力學的方法可以擴展到解決(jue) 未來的高階問題和複雜的機器學習(xi) 任務。
轉載請注明出處。