HCR強化學習智能應用之賦能工業(下)

來源:HCR慧辰資訊 時間:2019-07-23 08:15:28

 

強化學習能夠解決燃煤工業鍋爐控制中很多“怎麼辦”的問題:

 

  • 生産任務(熱量需求)會持續變化,煤炭質量參差不齊,如何調整送煤量既滿足需求又不浪費?

     

  • 既要保證安全運行,又要保證煤炭充分燃燒,還要盡量減少空氣帶走的熱量,如何精細化調整風機轉速?


 1首先要明确環境和交互

 

智能體:一個虛拟的實體(如阿爾法狗),通過與環境交互來學習控制策略。

 

環境:即要面對的任務(圖中地球),如棋局、鍋爐等。

 

交互:即面對環境智能體可以采取的動作(圖中Action),如下棋時可以落子、燒鍋爐時可以送煤、鼓風等。


 2其次要定義學習目标

 

反饋:當采取行動後會導緻狀态發生變化,強化學習算法通過獎勵值函數評估每個狀态的優劣,做出懲罰或獎勵(即圖中reward) 

 

目标:是指希望最終到達的狀态,如赢得比賽、煤炭利用率最高。

 

獎勵值函數:是強化學習的關鍵,設置恰當的獎勵函數能夠指引智能體達到目标。

 

例如,目标是取得比賽勝利,一種獎勵函數值是對“比賽勝利”狀态反饋獎勵值1,其他狀态反饋獎勵值-1。


 3最後要确定算法來尋找最優策略

 

策略:面對環境狀态,策略(Policy)決定如何采取動作,最優策略在任何狀态下選擇的動作都能最快到達目标(累計獎勵值最大)

 

算法:算法學習的目标是找到最優策略,算法從一無所知開始(随機策略),通過與環境交互、獲得反饋來找到最優策略。

燃煤工業鍋爐主要包括:

 

  • 爐膛:燃燒的容器

  • 給煤機:向爐膛内送煤

  • 爐排:煤炭在爐排上燃燒并送出(類似傳送帶)

  • 鼓風機:向鍋爐内送風

  • 引風機:從爐膛向外排氣

  • 吸熱管網:吸收熱量

  • 傳感器:實時采集鍋爐狀态,如負壓、溫度等

     

這裡面有兩個概念要需要重點講一下:

 

  1. 一個是負壓,如果鍋爐火焰蹿到爐膛外會降低熱效率、威脅人員設備安全,将爐膛内壓力保持在略小于大氣壓狀況(引風機向外抽氣實現)可以避免此類危害,稱爐膛為負壓狀态。

     

  2. 另一個是運行負荷,運行負荷是指鍋爐的有效熱量輸出(用于供暖等),可以通過進水溫度、出水溫度、水流量計算得到。

 

來看下我們建立的強化學習模型:

 

環境:鍋爐,環境狀态包括:傳感器采集的爐膛負壓、溫度、水溫等;各組件運行狀态:煤機、風機轉速等。

 

交互動作:調整煤機、爐排、風機轉速等。

 

目标

  1. 安全:負壓控制涉及到鍋爐運行安全,道路千萬條,安全第一條,安全問題容不得有絲毫馬虎;

  2. 完成負荷輸出任務:鍋爐運行的意義在于提供熱量輸出,滿足工業生産需求義不容辭;

  3. 節約煤炭:每節約一點煤炭都能為企業降低生産成本。

 

由目标确定反饋獎勵值評估方法:

  1. 負壓值超出安全區間,獎勵值為指數級負數(巨大的懲罰)

  2. 負荷輸出沒有滿足需求,獎勵值為指數級負數(巨大的懲罰)

  3. 煤炭消耗量,獎勵值為線性級負數(适當懲罰)

 

我們的獎勵函數如下:

其中,PI為爐膛負壓與理想範圍偏離值,GL為鍋爐負荷低于任務值, AR為煤炭消耗速度。

 

算法與策略:

 

鍋爐燃燒控制是一個典型的連續空間尋優問題,我們基于Actor-Critic算法實現。我們創建一個智能體Agent(類似阿爾法狗),是一位專注于鍋爐控制的好學生。

 

Agent從一無所知開始,通過大量實踐來尋找鍋爐控制的最佳策略,他會不斷探索,通過實踐來尋找最優策略,使長期reward最大(累計懲罰最少)。

 

到目前,我們已經把整個模型講完了,程序也可以按部就班地開發出來了,但是我們無法直接應用到工業生産中。

 

阿爾法狗訓練了數百萬次才學會下圍棋,在赢得比賽之前,它輸了無數次。但是在工業領域中,一次失敗代表一次鍋爐事故,我們一次也不能失敗,這也是大部分強化學習應用局限于遊戲領域的原因。

 

如何解決這個問題呢?我們想到了向老師傅學習、以及現有數據分析。

 

1

 

首先,我們通過分析大量真實鍋爐運行數據、集成一線專家經驗,基于深度學習構建一個模拟環境。

 

2

 

随後,Agent通過與模拟環境交互來進行實踐,在模拟環境内練習鍋爐控制過程,不斷優化控制策略。Agent學習的上限是我們模拟環境的真實程度,當模拟環境越接近真實環境時,Agent學習得到的策略越好。

 

3

 

然後,當Agent策略基本穩定後,我們會對Agent的策略進行評估,例如當鍋爐負壓值很大的時候,Agent采取什麼樣的行動;當輸出負荷沒有達到任務值的時候Agent會采取什麼樣的行動。

 

4

 

最後,當Agent的策略得到老師傅的認可後,我們将Agent應用到真實的鍋爐控制中去(同時還需要有工作人員實時監督,這樣Agent在控制生産鍋爐時能做到不犯大錯)。當系統長時間穩定運行之後(如穩定運行兩個月),Agent就可以獨立工作啦(學成出徒了)。

 

 

<section powered-by="xiumi.us" style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box; color: rgb(51, 51, 51); font-family: -apple-system-font, BlinkMacSystemFont, " helvetica="" neue",="" "pingfang="" sc",="" "hiragino="" sans="" gb",="" "microsoft="" yahei="" ui",="" yahei",="" arial,="" sans-serif;="" letter-spacing:="" 0.544px;="" text-align:="" justify;="" word-wrap:="" break-word="" !important;"="">

強化學習在實際工業應用中存在學習成本過大的問題,如何快速低成本地訓練強化學習模型是影響其應用的關鍵。

 

我們利用深度學習和專家經驗知識來降低學習成本,最終将強化學習應用于工業領域來降低生産成本、提高資源利用率。

 

通過在工業領域中運用強化學習技術來解決實際業務問題,HCR已經積累了一套可行的實踐經驗,相關算法已經申請專利,後續将拓展到更多的應用領域。