導讀:2025年7月5日,由中國科學技術協會主辦、中國自動化學會承辦的復雜系統自學習“逆最優”理論與方法專題論壇在中國科技會堂召開。
華北電力大學教授肖峰受邀參加本次專題論壇并作題為“信息物理融合能源系統的協同控制與優化”的報告。報告以分布式能源為研究背景,圍繞信息物理系統的分布式控制與決策的建模與分析,給出以下方向的研究成果:信息物理系統的穩定性與魯棒性、網絡攻擊下微電網的安全與協同控制、事件驅動協同優化、分布式納什均衡搜索、聚合博弈中的在線分布式學習等。研究成果刻畫了子系統網絡間的耦合作用,揭示了個體動力學、通信網絡結構和個體利益最大化之間的關系。研究結果應用到分布式能源系統在網絡攻擊和競爭機制下的協同與博弈建模、策略演化研究中,為構建新型能源管理系統提供了理論支撐。
一、研究背景
在現代電力系統中,微電網作為一種新興的系統形態,正逐漸成為推動能源轉型與分布式能源接入的關鍵技術路徑。微電網的概念最早于二十年前在美國提出,它的目的是構建一種具備自治能力的小型電力系統,如圖1所示。其核心組成部分包括:分布式電源、儲能系統、可控負荷以及相關電力電子設備。經過多年的發展,尤其是隨著2015年我國可再生能源政策的加速推進,以及《能源生產和消費革命戰略》等國家層面政策的持續引導,微電網被明確提出加強與智能電網深度融合,成為支撐我國能源綠色轉型的重要技術途徑之一。
圖1 微電網
微電網具有典型的分布式、自治與雙向互動特性,是分布式能源系統的重要代表形式。其主要特征體現在:能夠實現發電側與負荷側之間的信息與能量的雙向交互;同時,通過儲能系統實現負荷調節與能量管理,從而在一定程度上具備“源-荷-儲”一體化的運行能力。微電網不僅在提高可再生能源就地消納方面具有顯著優勢,還能有效提升系統運行的安全性與可靠性,降低碳排放與運行成本,因此被廣泛視為實現清潔低碳能源系統的關鍵路徑之一。我們聚焦于微電網架構設計、運行控制與優化調度等關鍵問題展開相關工作。
根據結構形式的不同,微電網可劃分為交流微電網、直流微電網及交直流混合微電網三種類型,如圖2所示。其中,交流微電網因涉及頻率和相位調控問題,其系統控制較為復雜;而直流微電網便于可再生能源和儲能系統的接入,無需考慮無功補償和頻率同步等問題,控制相對簡單。交直流混合微電網則兼具兩者優勢,能夠兼容多種能源和負荷形式,具備更強的系統靈活性與擴展性,但其控制系統設計與協調機制更為復雜,對系統集成與控制策略提出了更高要求。
圖2 微電網類型
根據其與主電網的連接方式,微電網可分為并網型微電網與孤島型微電網。前者與主電網存在能量與信息交互,可在主電網發生故障時實現快速切換運行;而后者則通常部署在工業園區、孤立區域等場景中,具備獨立運行能力,完全依賴本地資源實現能源供給與調度管理。從控制體系結構來看,微電網通常采用三級控制架構:一級控制、二級控制和三級控制,分別對應不同的時間尺度和控制目標,如圖3所示。一級控制的目標是實現系統的電壓與頻率穩定,維持功率的供需平衡。該層通常采用下垂控制策略,可適用于多分布式電源并聯的運行模式。依據控制方式不同,一級控制可進一步分為主從式控制與對等式控制。其中,在對等控制中,各發電單元均采用下垂控制進行自主調節,但由于線路阻抗和下垂系數的影響,系統總線電壓與期望電壓間會產生偏差,需要通過更高層級的協調控制予以修正。
圖3 微電網分層控制架構
二級控制主要功能在于恢復系統頻率和電壓至參考值,并實現多發電單元之間的協調運行??刂撇呗灾饕譃槿悾杭惺娇刂?、分散式控制和分布式控制,如圖4所示。集中式控制結構清晰但對通信網絡的依賴程度高,存在單點故障風險;分散式控制中每個節點獨立運行,雖然具有一定魯棒性,但缺乏全局協同能力;而分布式控制結合分散式控制的局部控制與集中式控制的信息共享優勢,通過節點間的信息交互提高了系統的可擴展性與容錯性,因而近年來受到了廣泛關注。盡管如此,分布式控制在優化算法設計、通信協議構建與系統穩定性等方面仍面臨諸多挑戰。
圖4 典型的控制策略
三級控制主要面向系統級的調度與經濟運行,核心任務是進行全局范圍內的能源資源優化配置。三級控制系統通常集成能量管理系統、調度優化器、功率分配器等功能模塊,依據系統中各類電源、儲能設備以及可控負荷的運行特性,制定最優運行策略。其目標不僅在于保障供電穩定與經濟運行,更強調降低系統碳排放,促進綠色能源的高效利用。
以微電網為典型代表的信息物理融合系統的結構一般可劃分為五層:物理層、感知層、網絡層、控制層與應用層,如圖5所示。其中,感知層負責數據采集與狀態監測,控制層實現實時反饋調節,是實現系統自適應與智能化的關鍵。引入通信網絡后,微電網也隨之面臨諸多網絡安全風險,因此必須針對信息物理系統的安全問題制定有效的抵御防護機制。
圖5 微電網信息物理融合系統
典型的網絡攻擊類型包括:拒絕服務(DoS)攻擊,其通過大量冗余數據或虛假請求占用網絡資源,造成控制器間通信中斷,從而影響系統穩定性;虛假數據注入(FDI)攻擊,其通過篡改或控制數據,破壞系統狀態估計與優化調度,導致運行效率下降甚至系統癱瘓;竊聽攻擊,其監聽和捕獲在網絡中傳輸的數據,獲取機密信息;重放攻擊,其截獲并重新發送數據,偽裝成合法通信,欺騙目標系統。
DoS攻擊可細分為持續型、周期型、隨機型和能量受限型等,如圖6所示。能量受限模型下,能量受限于設計的最大持續時間與允許發生最大頻率,以最小資源消耗達到最大破壞效果。針對這類攻擊,研究的核心問題是系統的穩定性與魯棒性控制,同時也需要考慮網絡通信的實時性、帶寬受限等挑戰。
圖6 Dos攻擊類型
本報告的研究內容主要圍繞信息物理融合能源系統在面臨網絡通信受限、網絡攻擊下的協同控制與優化決策問題展開,具體分為三個方面:一是系統穩定性與魯棒性分析;二是安全控制與協同機制設計;三是非合作博弈與優化。
二、異步信息物理系統的穩定性與魯棒性
在分布式控制架構下,每個節點系統具有自主決策能力,導致系統控制在時序上呈現出明顯的異步特征。這種異步性主要來源于三方面:其一,子系統間在控制與決策執行過程中的相對獨立性;其二,各網絡節點在信息處理時存在不同程度的時間延遲;其三,網絡延遲、拓撲結構變化或受到攻擊時,會使原本同步的信息流變為非同步。
事件驅動控制是一種有效應對網絡資源受限、降低通信頻率的控制方法,但在分布式控制架構下,其非周期性驅動的特性會導致系統動態行為的異步性。傳統的事件驅動策略多基于單一的邏輯變量與靜態規則設計事件驅動條件。這類方法形式簡單、易于實現,但在應對系統復雜動態特性、網絡異步性以及安全威脅等方面存在明顯局限。其另外一個缺陷是事件可能在短時間內密集發生,即發生Zeno行為,造成短期通信壓力上升,影響全局穩定性。因此事件分離特性是事件驅動控制系統的重要性質。對于如何擴大事件間隔問題,文獻中基于單一邏輯變量的靜態規則方法屬于“間接方法”,即在事件條件設計完成后分析驗證事件間隔是否滿足系統性能要求。為突破這一限制,我們提出一類“直接方法”,稱為復雜邏輯驅動控制,其依賴于多個邏輯變量和復雜動態規則,在控制協議設計階段便考慮事件間隔與驅動頻率約束。有助于提高系統設計的靈活性和可預測性,為進一步提高控制性能提供可能途徑。
2.1復雜邏輯驅動控制
復雜邏輯驅動控制包括時間-事件混合驅動控制、切換型事件驅動控制、雙檢/多檢事件驅動控制等。時間-事件混合驅動控制包括周期事件驅動控制、異步非周期事件驅動控制、強制駐留時間類型事件驅動控制等。
在周期事件驅動控制中,事件的發生依賴于兩個并列條件:一為傳統的狀態相關的事件驅動條件;二為時間條件,用于約束事件驅動條件檢測時間在周期性的時間點集上。只有當這兩個條件同時滿足時,系統才會被驅動以采取必要的控制操作。異步非周期事件驅動控制機制也可同樣被表達為兩個邏輯變量的合取,其中時間條件約束事件檢測時間點集。強制駐留時間類型事件驅動控制機制可以表達為三個條件的順序判斷,是一種動態規則,涉及三個邏輯變量,分別對應駐留時間條件、狀態相關的事件條件和時滯條件。駐留時間的引入強制系統進入驅動條件無響應階段,有效地抑制了控制動作的頻繁發生。
切換型事件驅動控制機制包括兩個或者多個事件驅動條件和相應的切換條件,任意時間均有一個事件驅動條件有效,當當前事件驅動條件滿足時觸發系統控制,當其切換條件滿足時,切換到下一個事件驅動條件。
雙檢/多檢事件驅動控制機制包括兩個或者多個事件驅動條件,事件驅動條件順序循環判斷,當所有條件順序滿足后觸發系統控制,再從當前條件開始順序循環判斷,周而復始。
2.2穩定性與魯棒性分析方法
為應對由復雜邏輯驅動控制引發的動態復雜性和系統異步性,我們引入了時間平移方法、正向級數方法和積分條件方法。
時間平移方法:一種系統分析預處理方法。在適用的系統中,所有子系統關鍵控制事件相關的時間點屬于某個具有周期特征的時間集,且所有子系統具有共同的周期。該方法通過對不同子系統分別進行時間平移變換,使得所有子系統虛擬同步,為后續分析奠定基礎。此方法可以將異步系統轉換成時滯系統,是分析異步和時滯關系的重要方法。
正向級數方法:一種系統穩定性和魯棒性分析方法,此方法適用于一般的異步系統。基于多步狀態轉移公式,得到所應用Lyapunov函數的級數形式的上界估計,進而根據Lyapunov函數的正定性和正向級數收斂性判別法進行系統分析。
積分條件方法:該方法通過建立誤差信號的積分形式的相對上界,衡量系統擾動與控制輸出之間的能量關系。該方法對擾動、網絡攻擊下系統魯棒性進行理論判定,提供明確的穩定性判據。
三、網絡攻擊下微電網的安全與協同控制
針對網絡攻擊下的微電網安全與協同控制問題,我們分別研究了單總線直流微電網和多總線直流微電網群應用場景,探討了多種網絡攻擊下的分布式控制方法。
3.1單總線直流微電網
分布式直流微電網的應用愈發普遍,典型結構如圖7所示。由于下垂控制的應用,電壓恢復和電流共享無法同時保證。我們針對二級控制層提出了一種新的自適應安全控制策略,并采用事件觸發機制來減輕通信負擔。在消除總線電壓偏差的同時,保證了分布式發電單元的電流共享。即使在能量受限型DoS攻擊下,控制目標也可以很好地實現。此外,控制器和驅動機制的設計無需總線電壓采樣和任何全局信息。
圖7 孤島直流微電網
3.2 多總線直流微電網群
電壓調節和精確的電流共享兩個控制目標在多總線直流微電網中是沖突的。為此,我們提出了一種分布式控制策略,它可以實現精確的電流共享并按比例調節關鍵節點的電壓。但是,這種分布式控制系統容易受到潛在的網絡攻擊。網絡攻擊可通過破壞通信鏈路降低微電網的性能。為了克服這些問題,我們設計了互聯通信網絡,建立了一類針對未知有界FDI攻擊的多個微電網組成的彈性協同系統,如圖8所示。所提出的彈性控制策略可以實現不同工況下每個微電網內電壓調節和電流共享的控制目標,以及由多個微電網組成的互聯系統協作抵御網絡攻擊的不利影響。
圖8微電網群的互聯協作系統
四、非合作博弈與優化
在分布式能源系統中,發電單元、儲能單元以及用戶側負荷可通過各自的成本函數與收益函數進行策略博弈,從而在合作與競爭之間尋求平衡。合作模式下可構建全系統優化模型,通過集中式或分布式策略求解實現資源的全局最優配置;而在競爭環境下,博弈論提供了靈活的建模手段,其與多智能體系統有相似的模型框架,如圖9所示。
圖9智能體系統與博弈模型
博弈論研究多個理性決策者之間的合作與沖突。如果參與者除了自利驅動的行為之外沒有合作協議,則被稱為非合作博弈。在復雜的能源管理系統中,非合作博弈是一種用于建模源、儲、荷等相互作用的重要工具。典型的非合作博弈類型包括聚合博弈、聯盟博弈、零和博弈等。
非合作博弈的一個重要概念是納什均衡。該概念刻畫了一種系統平衡點:在所有參與者策略固定的情況下,任何單個參與者都無法通過單方面調整自身策略來進一步降低代價或提高收益。納什均衡是參與者基于其他參與者策略選擇的最優策略,但并不意味著是全局最優策略組合,這一性質使其成為非合作博弈求解中的核心目標。
為確保納什均衡的存在性與唯一性,系統模型通常需滿足幾個關鍵假設:其一,分布式系統的通信圖需要保持連通性;其二,每個參與者的成本函數需具備凸性,策略約束集也需為凸集;其三,博弈映射應滿足強單調性條件。在滿足上述假設條件下,博弈系統的納什均衡具有良好的可求解性,并可通過分布式算法逐步逼近。
博弈問題往往不僅包含靜態/時變成本函數,還受到系統動態與時變策略集的共同約束。特別是在能源系統中,參與者的控制變量受制于一系列耦合約束,如可調功率、儲能容量與節點電壓范圍等。若某一參與者的可行策略集合本身受到其他參與者策略的影響,即構成了廣義納什均衡問題。因策略空間耦合性,問題求解更為復雜,特別是在博弈代價無法即時反饋或完全不可觀測的情況下,需要額外的機制設計與反饋結構加以處理。
挑戰性問題:圍繞上述應用背景,我們的研究聚焦于以下四類關鍵問題:(1)分布式納什均衡搜索,主要針對線性動態系統聚合博弈的非完全信息情況,構建具有快速收斂性的估計機制,識別聚合變量并實現均衡逼近;(2)分布式廣義納什均衡搜索,在可行策略集耦合約束下引入反饋與協同機制,實現全系統自適應協調;(3)事件驅動下的聚合優化問題,通過引入事件驅動機制減少通信負擔,提高系統整體性能;(4)反饋時滯聚合博弈中的在線分布式學習,在動態環境中持續調整個體策略,以提高系統的魯棒性與實時性。
為應對系統中不可直接觀測或不可知的策略信息,我們引入一致性估計協議。該協議通過構建輔助變量,實現對系統關鍵信息的一致性估計。這種方法使得個體在不完全信息條件下依然能夠協同實現搜索策略的收斂。
廣義納什均衡搜索:該問題涉及聚合博弈中的參與者的動態性與策略約束結構,其中某些系統動態可等效表示為雙積分模型??紤]了等式與不等式混合約束條件、異構線性系統等多種情況。針對一類成本函數未知的受約束非合作博弈,提出了一種基于分布式非模型的廣義納什均衡搜索算法。該算法融合了極值搜索控制和拉格朗日乘子協同算法,并引入了遞減抖動信號,以消除經典極值搜索中出現的不良穩態振蕩。
分布式連續時間聚合優化:該問題是基于價格的能源管理中的一個基本問題。分布式聚合優化的目標是最小化局部目標函數之和,該函數的表達式依賴于參與者自身決策和所有參與者決策的聚合。為了解決這個問題,我們提出了一種新的分布式連續時間算法,該算法結合了梯度動力學和雙時間尺度的動態平均一致性估計器。同時,還研究了該算法在事件驅動通信下的應用。
聚合博弈中的分布式在線學習:提出了一個具有反饋延遲的新型聚合博弈模型。博弈參與者的策略從給定的策略集中選擇,并受到全局非線性不等式約束。成本函數和約束函數都是時變的,這反映了環境的變化特性。在任何時候,每個參與者只能獲取其策略集的信息,而其當前成本和約束信息是未知的。由于反饋延遲,相應的成本和約束的反饋信息在策略選擇后不會立即透露給參與者。針對此類聚合博弈問題,我們提出了一種分布式學習算法。該算法基于來自鄰居的局部信息和來自環境的延遲反饋信息,適用于時變加權有向網絡拓撲。
*本文根據作者所作報告速記整理而成
嘉賓簡介:
肖峰,教授,博士生導師,教育部新世紀優秀人才,國家優秀青年科學基金獲得者,2012年入選哈爾濱工業大學人才引進“百人計劃”第三層次,2016年聘為哈爾濱工業大學長聘教授。主持科學技術部、自然科學基金委、教育部、人力資源和社會保障部、北京市自然科學基金委等多項國家和省部級項目,獲得2014年和2017年兩項國家自然科學獎二等獎;獲得2014年和2016年兩項教育部自然科學獎一等獎;獲得加拿大Killam Trusts Killam博士后獎和首屆《中國科學:信息科學》十年經典論文獎;入選2020年-2024年愛思唯爾中國高被引學者。
研究方向包括:協同控制與優化決策、智能電網、電力系統建模與仿真等。