當前位置:首頁 » 專題報道 » 第八屆數(shù)字中國建設(shè)峰會 » 嘉賓觀點
數(shù)據(jù)驅(qū)動與因果驅(qū)動的雙向賦能
2025年06月06日 14:07 來源:數(shù)字中國 【打印】 
尊敬的領(lǐng)導、各位來賓,我今天匯報的題目是《數(shù)據(jù)驅(qū)動和因果驅(qū)動的雙向賦能》。
匯報分成四個部分:
一、信息-物理-社會系統(tǒng) (CPSS)
我們知道電力系統(tǒng)經(jīng)過了很長的時間,在智能電網(wǎng)方面進行了很多研究工作和應(yīng)用,為了溝通電力系統(tǒng)在智能電網(wǎng)中的研究工作和其他的領(lǐng)域之間的關(guān)系,我在IEEE總刊上發(fā)了一篇文章,介紹了中國提出來的CPSSE (信息C - 物理P - 社會S - 系統(tǒng)S概念下的,能源 E – 環(huán)境 E – 經(jīng)濟 E協(xié)同發(fā)展)的框架,這個觀點性的文章發(fā)表在IEEE總刊觀點性欄目,欄目創(chuàng)立到現(xiàn)在近十年,能源領(lǐng)域一共有7篇左右的文章,中國機構(gòu)僅有一篇,這篇文章闡述了我國的電網(wǎng)、電力走過了智能電網(wǎng)的道路,擴展到非電力的能源系統(tǒng)和非能源的物理系統(tǒng),并且在不斷繼續(xù)擴展中。
未來在以前的成果擴大基礎(chǔ)上還要增加第三維的信息,社會系統(tǒng)包括政策以及人的行為等。這個開放的因素會越來越重要,我們知道電力系統(tǒng)是能源鏈中的核心環(huán)節(jié),是溝通可再生能源和終端能源的革命,所以在支撐經(jīng)濟社會發(fā)展的同時,電力系統(tǒng)和能源鏈也是對于大氣中以二氧化碳為代表的溫室氣體的主要負責源頭之一。
二、確定性模型整體還原(WRT)
研究復雜系統(tǒng)之間的關(guān)系和正確引導政策制定,由此看到智能電網(wǎng)的概念實際就是針對行業(yè)能源中的核心環(huán)節(jié),融合一個學科,包括Cyber和Physical,所以我們就形成了CPSP電力系統(tǒng)所講的智能電網(wǎng)的概念。
隨著開放的新型電力系統(tǒng)和新型的能源體系的方向明確以后,我們在行業(yè)中就要擴展全部的能源鏈,引入環(huán)境鏈和經(jīng)濟鏈;在學科方面,除了在Cyber和Physical兩個領(lǐng)域之中,我們還要增加社會因素,改革的時候離不開政策的引導也離不開每個參與者的行為方法。
對于本來已經(jīng)非常復雜的系統(tǒng),因為引入了新的因素,使得復雜的系統(tǒng)變得更加復雜。下面講的是確定性的模型是進行研究的方法。
可以看到,復雜的系統(tǒng)是在一個非常高維空間當中隨著時間變化的,對于非線性系統(tǒng)來講,二維的非線性系統(tǒng)才可以量化求解。要達到一個較好的科學管理和控制效果,一定要解決從高維空間中轉(zhuǎn)化到二維平面上的數(shù)學問題。數(shù)學模型是可以降階的,哪怕降一階,在大多數(shù)情況下可以接受,特殊情況下就會迎來比較大的風險,近幾百年來人類在整個認知里貫穿的都是如何認識復雜的問題,在近40年當中,中國科學家解決了這樣的問題。
我們在生產(chǎn)機械零件的時候,例如軸承蓋,這個過程它并不是在三維空間進行的,而是在幾何視圖投影平面進行的,按照這三個平面中制造出來的零部件完全符合原來的設(shè)想,這些信息完全保留。這個例子啟發(fā)我們,高維空間上的信息是能夠降階的,我們通常說,在空間中丟失一個維度是不同的,而是將一個高維系統(tǒng)降到三個層面來討論。物理系統(tǒng)中四維、五維,可以用視圖表示,狀態(tài)空間可以在線性空間表現(xiàn)出來。拓展一下,以四維的空間為例,在數(shù)學空間當中可以在三維空間里再增加一個平面,就可以把新的變量多元到原來的系統(tǒng)中。
我們分析整個系統(tǒng)的時候,在每一個平面系統(tǒng)上并沒有得到完整信息。以俯視圖為例,這個圓到底是一個洞還是柱子看不出來,只有在其他維度上把它補充上來,如果要把全部的信息都保存在俯視圖上,我們可以用顏色的深淺來反映高度信息,可以在這個平面包含整個信息。
三維很好利用,我們可以在中國的衛(wèi)星影像上看到海拔高度隨著平面點的變化而變化。如果說增加一個維度應(yīng)該怎么辦,就提出了把一個復雜系統(tǒng)、一個新的觀點分成兩個部分。
一個部分就是脫離具體的系統(tǒng),還有一個部分就是指導問題研究來支撐它。
第二,時間的切片可以把非線性和時變性變成定長的線性化,然后再進行分析,因為橋梁映射是一個線性的矩陣,是可以進行變換的,經(jīng)過理論證明,可以完全保留原來的性質(zhì)。
三、 基于符號串的預訓練 (SPT)
對于具體問題來講,在這樣的認識中要提供模型,要保證映射中的推導、映射的矩陣,另外還要求分段的線性化深層次知識的提取。把這樣的概念應(yīng)用到實際的復雜系統(tǒng)中,對于空間來講是分成不同的行為模式,在時間上分成不同的時間段,在矩陣中把模式是怎么隨著時間變化表示出來了,就可以把它的微結(jié)構(gòu)表示出來。
信息通過映射的方法映射到用光點來表示的時候,是不丟失的,這樣一個概念用在了我讀博士學位時創(chuàng)立的面積法則,這個方法是迄今為止國際上唯一一個得到嚴格證明的理論,并且得到大規(guī)模應(yīng)用的量化方法,成功地支撐了電力防御系統(tǒng)。但是這碰到了兩個本質(zhì)上的困難。
第一個困難雖能嚴格求解確定性的復雜系,難以應(yīng)對高維不確定性。原來我們研究的電力系統(tǒng),是把它的注入量和受到的擾動設(shè)定為已知,隨著電力系統(tǒng)的開放、外部的一次能源的變化和自然界的極端災(zāi)害,包括日常管理、通信系統(tǒng)、人才的適應(yīng)性和水平都會影響電力系統(tǒng)的正常運行,反過來電力系統(tǒng)的任何擾動也會影響到身邊環(huán)境。
第二個困難雖能揭示系統(tǒng)模型的行為機制,但并不是客觀系統(tǒng)的行為機制。我剛才介紹解決的問題和顏色的部分邊界條件和擾動情況是給定的,可以分析它并且把對策優(yōu)化出來。這么高維的非線性的東西都是組合的,你如何指定確定性的分析邊界條件這個問題到現(xiàn)在都沒有很好解決,我們的目的是希望經(jīng)過我們的分析能夠反映實際的客觀系統(tǒng)的規(guī)律性。但是我們現(xiàn)在沒有辦法做到,實際上研究的是把客觀的復雜系統(tǒng)變成一個數(shù)學模型,是去研究一個數(shù)學模型的行為,這個部分是我們認識中已經(jīng)解決的。
剛才所介紹的整體還原論的理論,也是我國科學家在國際上首創(chuàng)的,能夠把整體論和還原論結(jié)合起來的,并不能夠保證模型反映客觀協(xié)同,問題也沒有解決。這兩個問題本質(zhì)的缺陷都可以溯源到原因,沒有辦法有效地顧及復雜的不確定因素影響,這個對我們因果驅(qū)動來講沒有辦法做到,恰恰是人工智能,特別是語言模型的一個長處。我們知道大語言模型實際是反映了條件概率的分布問題,可以根據(jù)前面詞匯的順序預測后面的詞匯,就可以在大規(guī)模的文本語料中進行預訓練和微調(diào),進行深度強化學習,這個方法已經(jīng)是得到廣泛的應(yīng)用,具有非常強大的能力,并且也在不斷地快速發(fā)展當中。
WRT的這兩個本質(zhì)局限性都可以溯源到:難以有效計及復雜不確定性因素的影響,而基于統(tǒng)計學及概率論的AI 技術(shù)則適合于處理不確定性,這種方法和AI技術(shù)也都遺傳了本質(zhì)的局限性,數(shù)據(jù)和語料的可信度,另外在不同場景的泛化性和可解釋性都比較差。
在電力系統(tǒng)這樣非常嚴格地要求可靠性和可追溯性的情況下能不能應(yīng)用大模型就成為我們要解決的主要問題了。
因此,我引入了這個主題,探討如何將原本的整體還原論視為一種嚴格的數(shù)學方法,進而解析其中的機制并最終加以驗證。該方法在底層由非常堅實的因果關(guān)系驅(qū)動。然而,在計算初始條件時存在一定的不確定性。例如,對于大語言模型或電力系統(tǒng),我們提出的觀點不能簡單地照搬大語言模型的做法。相反,我們提出了一種符號串預訓練技術(shù),其基本概念與大語言模型非常相似,并且受其啟發(fā)。然而,我們的方法不僅僅是給出一個結(jié)論,而是提供一系列可能的潛在風險結(jié)論。這是我們目前正在進行的一項新的研究工作,旨在將前述的兩種方法綜合成一種新的方法。這張圖,表示的是因果算法和機器學習之間是怎么樣進行算力賦能的框架。這里面每個箭頭都是對另外一側(cè)思維方法的支撐,可以分別介紹一下。
四、SPT的統(tǒng)計觀+WRT的機制觀
從1986年開始我開始在EEAC 算法中探索因果與AI 思維的融合,并不斷完善后廣泛應(yīng)用于國內(nèi)外的電力工程,我們把因果模型轉(zhuǎn)化成積分的時候,完整的積分就是算子,可以把一個模型所有的信息和參數(shù)、故障反映在軌跡上,近百年的研究工作就止于這里,得到這個模型,后面工作就是靠人的解釋和經(jīng)驗解讀,但是這條路走不通,研究進展因此停滯。我們提出了一種方法,求出曲線并進行量化分析,從而突破了局限,在參數(shù)條件和故障場景給定的情況下可以量化分析了。但是,對于未來尚未發(fā)生的事件,我無法確定在何種系統(tǒng)參數(shù)和故障場景下進行分析。因此,如果是基于因果驅(qū)動的方法,我們很難在龐大的空間中找到應(yīng)關(guān)注的重點。我們希望利用人工智能來解決這個關(guān)注度的問題,在極其復雜的環(huán)境中,找到在未來短時間內(nèi)或特定時間段內(nèi)應(yīng)關(guān)注系統(tǒng)的哪個部分。這是我們當前需要解決的關(guān)鍵問題。
在這個過程中,我利用了大量機器學習方法。雖然當時我對其了解不深,也不完全理解自己所做工作的本質(zhì),但憑借工程直覺,我對軌跡進行了分解,并在一個二維等值平面上將量化結(jié)果進行可視化,然后再將這些結(jié)果聚合起來,從而解決了原方案中的問題。經(jīng)過這20多年的努力,我們已經(jīng)有了國際上唯一的工程化軟件,在國外,使用的都是20世紀末的出口軟件,后來因為種種關(guān)系,他們擔心我們軟件沒把源碼給他們,他們就不愿意采用,我們也不愿意把我們的研究結(jié)果再輸出了,所以我們是遙遙領(lǐng)先于國外的水平。
在因果(EEAC)算法中,我們還可以引入人工智能因素,以協(xié)調(diào)因果關(guān)系的精度和適度。例如,我們有許多不同的近似因果算法。在使用積分時,可以通過不同的積分補償方法來獲得不同的精度。如果采用較大的積分補償,雖然無法得到嚴格的積分結(jié)果,但可以得到一個近似的結(jié)果。如果我改用大補償,用另一個更大一點的稍微修正一下,得到兩個結(jié)果我就塑造到AI中去,如果剛才兩個信號的差別很小,就意味著這個案例對補償是不敏感的,所以我們可以直接按照近似的解來判斷穩(wěn)定性,如果發(fā)現(xiàn)這兩個補償改變以后結(jié)果曲線變化很大,就可以結(jié)合這樣一個嚴格的因果算法,經(jīng)過嚴格算法輸出一個非常精確的結(jié)果。但是需要比較多的計算量,這樣的方法就可以使天文數(shù)字這樣的算力得到比較好地轉(zhuǎn)化。
在AI中,我們也可以利用因果關(guān)系算法中得到的中間結(jié)果,例如每個節(jié)點的注入量。由于涉及幾十萬個變量,獲取的信息質(zhì)量往往較差,因為難以確保所取的變量是關(guān)鍵變量。這些變量會隨著不同的擾動而變化,使得確定關(guān)鍵變量變得復雜。如果我們把信息綜合下因果關(guān)系用Y來表達它的注入量和拓撲結(jié)構(gòu),那么這個Y中的信息量就大大減少了,這是我們?nèi)绾斡靡蚬P(guān)系幫助我們機器學習的例子。
解決了算法層次上如何把人工智能和因果驅(qū)動兩者進行結(jié)合后,在宏觀上探討這兩者之間是否存在互補的地方。為此我們提出一個新的做法,現(xiàn)在研究團隊正在全力做這個工作。
這個工作我們使用確定性的整體還原,保證出口只要在你給定的條件下,它的出口是嚴格的,可以使用數(shù)學證明的,剛才講到,第一,外界情況是變化的,比如臺風經(jīng)過福建的時候,是動態(tài)的可能轉(zhuǎn)向,如果希望提前知道15分鐘的情況,哪些線路處在核心區(qū)域、高強度的臺風區(qū)域中,按照實際的臺風走向,理清楚哪些線路風險最高,用這個東西從大到小進行風險排序,排成一系列確定性場景,人工智能起到的作用就是把高維的不確定性因素降維到一大批確定性的問題來解決,底層是有確定性的整體還原論保證出口的正確性,這是嚴格的,但是不確定性是靠人工智能捕獲我們的注意力應(yīng)該在什么地方,所以這兩者結(jié)合就可以解決目前的難題,也就是說如何在不確定性問題的風險決策中解決確定性問題的決策。但是對不確定性的問題需要做人工智能的幫助。
要打破現(xiàn)在的人工智能和語言模型的最大障礙,以電力系統(tǒng)為例,在嚴格控制要求情況下,需要解決的問題是能夠把語言模型提供給確定性分析的模型仿真,發(fā)揮作用,這是兩層模型,下層是非常嚴格的因果量化保證,可以保證它的出口是完全精確的,并且可解釋的,但是故障系統(tǒng)的初始條件和考慮在什么擾動情況下分析確定性,這個交給語言模型來做,希望很快就可以做出一個實際的效果。
直到現(xiàn)在,除了電力系統(tǒng)已經(jīng)得到了廣泛應(yīng)用外,這些應(yīng)用普遍存在一個局限性,即沒有結(jié)合嚴格性。
語言模型的出現(xiàn)使得我們重新反思了一下,解決一系列認識論中的協(xié)調(diào)過程,這些存在不同視角的協(xié)同,把兩個表面上非常矛盾地統(tǒng)一到一個框架里,這是我們正在做的非常宏偉的一個設(shè)想。這個設(shè)想在國際上都是第一次提出,也沒有其他方法在做。我們想到的就是用機器人的兩只眼睛觀測和左面、右面大腦分別主管不同的確定性分析和不確定性分析,這樣就可以攜手實現(xiàn)復雜系統(tǒng)的風險決策。我們用底層嚴格的整體還原論來表達,但是,高層不確定性的部分由語言模型來做,整體還原論就從一般的經(jīng)驗性判斷擴展到非常嚴格的應(yīng)用上面。
最后簡單總結(jié)一下。
第一點我們處在一個發(fā)展動態(tài)的社會當中,我們的對象越來越復雜,一定要在決策中從確定性分析提升到風險性決策中去。第二點新型電力系統(tǒng)同CPSSE一樣,是這個領(lǐng)域的護航者。第三點CPSS-EEE是南瑞集團提出新型電力系統(tǒng)發(fā)展的優(yōu)化理論框架。第四點WRT是認識論中提出基礎(chǔ)理論。第五點如何把基礎(chǔ)理論和不確定性人工智能結(jié)合起來,以解決風險性方法論,這是一個非常重要的問題,特別是對電力系統(tǒng),這些關(guān)鍵的技術(shù)中,不是只靠經(jīng)驗來解決問題的時候,我們希望能夠找出一條新的路徑。
謝謝大家的關(guān)注。
(以上內(nèi)容根據(jù)嘉賓發(fā)言速記整理)
