專(zhuan) 家視點
機器學習(xi) 在超快光子學領域的應用越來越廣泛。針對基於(yu) 飽和吸收體(ti) 的超快光纖激光器的自動鎖模問題,Yan等人提出並實現了一種 基於(yu) 深度 確定性策略梯度的低延遲深度強化學習(xi) 算法。該算法包括兩(liang) 個(ge) 提供腔內(nei) 激光偏振態修正策略的actor神經網絡和兩(liang) 個(ge) 評估actor網絡效果的critic神經網絡。 actor神經網絡的作用是根據狀態選擇適當的動作。 critic神經網絡的目的是評估執行的動作對係統的影響。 將深度強化學習(xi) 算法和低延遲算法與(yu) 基於(yu) 可飽和吸收體(ti) 的超快光纖激光器相結合,構成自動鎖模控製係統。 在算法與(yu) 環境的交互過程中,為(wei) 了保證環境狀態的穩定,需要經曆一個(ge) 必要的時延, 原因是在更新電偏振控製器的偏振狀態後,超快光纖激光器的狀態需要一段時間才能變得穩定。進一步地,為(wei) 了保證其有效性和魯棒性,研究人員提出了兩(liang) 個(ge) 實驗。在有效性方麵,一個(ge) 實驗驗證了訓練後網絡模型的性能,將其應用於(yu) 在環境振動下恢複鎖模狀態,模擬了超快光纖激光器快速失去鎖模狀態的情況。至於(yu) 魯棒性,另一個(ge) 實驗首先用不同溫度下的超快光纖激光器建立數據庫。然後,研究人員對模型進行訓練並測試其性能。 實驗發現,該算法在振動後最快的基本鎖模恢複時間為(wei) 0.472 s,平均恢複時間為(wei) 1.948 s。 與(yu) 以往提出的偏振控製算法相比,該算法可以一步實現大規模的偏振態調整,從(cong) 而優(you) 化初始偏振態遠離理想偏振態的解。 在不同溫度下,訓練後的網絡模型也能在短時間內(nei) 恢複超快光纖激光器的鎖模狀態。 這是具有低延遲算法的深度強化學習(xi) 算法在平均鎖模恢複時間上比類人算法快的主要原因。此外,在計算機上部署了具有低延遲算法的深度強化學習(xi) 算法,這意味著係統可以實現遠程自動鎖模控製,表明該係統能夠實現遠程維護和監控。最後,一台計算機可以同時控製多個(ge) 激光係統,對串級係統的調試和控製具有重要意義(yi) 。 因此,這項研究實現了遠程算法訓練和自動鎖模控製,為(wei) 超快光纖激光器的遠程維護和集中控製奠定了基礎。該工作發表在 Photonics Research 上。
Qiu-Quan Yan, Qing-Hui Deng, Jun Zhang, Ying Zhu, Ke Yin, Teng Li, Dan Wu and Tian Jiang, Low-latency deep-reinforcement learning algorithm for ultrafast fiber lasers, Photonics Research 9(8): 1493-1501 (2021).
計算機領域研究的人工智能算法在醫學、金融和光學等許多其他領域發揮了巨大作用。人工智能的應用主要包括反饋控製、模式識別、大數據分析、特征提取和降噪。作為(wei) 人工智能領域的一個(ge) 重要分支,深度強化學習(xi) 以其感知和決(jue) 策能力為(wei) 複雜係統的反饋控製問題提供了一種解決(jue) 方案。因此,它被廣泛應用於(yu) 自動駕駛和工業(ye) 自動化等領域的反饋控製。當深度強化學習(xi) 在不同的環境中應用時,策略是不同的。因此,出現了大量的基於(yu) 強化學習(xi) 的算法,如馬爾可夫決(jue) 策過程、動態規劃、蒙特卡羅方法、時態差分、SARSA、深度
轉載請注明出處。