
作者簡介:史學玲,女,現任機械工業儀器儀表綜合技術經濟研究所副總工程師,功能安全中心主任,全國測量控制標準化技術委員會系統及功能安全分技術委員會副主任委員,IEC61511標準工作組中國專家。主要研究方向為功能安全及控制系統可信性評估。先后承擔并完成了科技部下達的國家軟科學研究、國家“863”計劃、國家科技支撐計劃、科研院所開發等十多個研究項目,在控制設備及系統的功能安全關鍵技術上實現多項突破,獲得2份計算機軟件著作權登記證書,在各類雜志上發表論文近30篇,作為主要起草人參加起草了3個功能安全國家標準。先后獲省部級二等獎2次、三等獎1次
摘要:在役過程控制系統的風險評估、可靠性評估、可用性評估與安全性評估都是系統可信性評估的一個方面,應按照國際標準的要求,采用與國際接軌的方法進行。
關鍵詞:在役 控制系統 風險評估 系統可信性評估 可靠性評估 安全性評估 可用性評估
大規模工業生產過程能否平穩安全地運行,極大地依賴于控制系統的可信性。因為控制系統是生產過程的神經與指揮,一旦發生故障與失效,不但會造成非計劃停產,破壞生產的平穩運行,給企業造成巨大經濟損失,還有可能危及生產人員安全,甚至可能造成工廠毀滅性的災難。
作為一個可信賴的控制系統,它必須隨時可以執行其功能。這屬于可用性方面的問題,它取決于系統的故障發生頻率(可靠性)和系統恢復正常所需的時間(可維修性)。但事實上,當系統準備執行其功能時,并不表示系統功能一定會被正確執行。這又涉及到信任性方面的問題。信任性取決于在系統處于不能正確執行某些或全部功能的狀態時,系統發出警告的能力(忠實性);還取決于系統拒絕任何不正確輸入或未經許可進入系統的能力(防護性)。其之間關系如圖1所示。
隨著計算機控制技術的快速發展,控制設備系統如DCS 的人機接口更新頻繁,控制器不斷升級,許多系統投用不久就面臨升級與改造。在我國石油、化工、冶金、電力、機械等領域,大量不同時期、不同供應商提供的控制系統及設備應用于各類生產過程中,各行業企業不同程度地存在著設備老化與可靠性不足、備品備件不足、人員培訓不夠、人員難以掌握眾多品牌的系統設備維修維護技術等問題,因此,控制系統失效導致生產事故與安全事故的風險很大。為了保證生產平穩與安全高效,或為了確定系統改造方案,不少用戶都提出并進行了安全性評估、可靠性評估、可用性評估、風險評估等不同評估,希望能把因控制失效導致風險的可能降至最低。實際上,所有這些評估都是可信性評估的一個方面,應按照國際標準的要求,采用與國際接軌的方法進行。
本文從介紹國際標準與基本定義開始,提出了一套評估控制系統可信性時需要考慮的因素、應掌握的基礎技術,以及應采用的評估技術。
1 控制系統可信性評估標準概述
國際標準IEC61069.1~8(中國國家標準GB/T18272.1~8)“工業過程測量和控制系統評估中系統特性的評定”包括8個分標準,可以供控制系統的用戶和制造廠以及負責評估的獨立研究機構評估控制系統特性時使用,進行可信性評估時,這是一套可借鑒的標準。
IEC62278(GB/T21562)“ 軌道交通 可靠性、可用性、可維修性和安全性規范及示例”雖然是為軌道交通行業制定的,但它定義的安全性與可用性評估、管理、分析方法等要求可以為其它應用領域借鑒。
IEC61508.1~7(GB/T20438.1~7)“電氣、電子、可編程電子安全相關系統的功能安全”包括7個分標準,它規定了控制系統功能安全的基本要求,也可用于功能安全評估。以此標準為基礎的其它功能安全標準都是進行安全性評估時需要考慮的重要內容。
IEC61511.1~3(GB/T21109.1~3)“過程工業領域安全儀表系統的功能安全”。這套標準包括3個分標準,規定了流程工業領域安全儀表系統功能安全的基本要求,在石油、化工、電力、冶金等流程工業領域進行評估時需要參考此標準。
IEC 62439與IEC61784-3分別描述了自動化網絡的可用性與安全性相關要求。
依據評估目的、范圍不同,還會有一些領域專用標準需要參考借鑒。
2 相關術語與基本定義
2.1可信性 denpendability
假定具備必要的外部資源,系統能在規定的條件下,在規定的一瞬間或一段時間內正確地完成特定任務的可信賴程度[1]。
可信性的層次如圖1所示。

圖1 可信性的層次
2.2可用性(availability)
可用性定義是: 在要求的外部資源得到保證的前提下,產品(裝備)在規定的條件下和規定的時刻或時間區間內處于可執行規定功能狀態的能力。
2.3可靠性(reliability)
可靠性的定義是:在給定條件下和規定時間間隔內,產品執行所需功能的能力。
系統的可靠性取決于系統各個部件的可靠性以及這些部件在執行系統任務時的協作方式。部件的協作方式可包括功能冗余(同類或不同類)、功能退化和功能下降。系統的可靠性相對于每一項任務來說可能是各不相同的。各項任務的可靠性均可量化,但其預計置信度水平則各不相同。系統各個硬件的可靠性可以采用部件計數法進行預計。然后利用綜合法就可以預計系統的可靠性。
2.4可維修性(maintainability)
可維修性的定義是:一個實體在規定的條件下采用規定的程序和資源進行維修以后,可以在規定的使用條件下保持或恢復到能完成規定功能的狀態的能力[2]。
系統的可維修性取決于系統各個部件的維修性以及系統的物理結構和功能結構。物理結構影響到存取的難易程度和更換性等。功能結構影響到診斷等的難易程度。
在定量表示一個系統的可維修性時,應該把使系統恢復到完全能執行其任務的狀態所需采取的各種措施計算在內,包括檢測故障、通知維修、論斷和排除故障起因、調和及檢驗等所需的時間。還應通過核對下列項目的保障措施和覆蓋系數,給可維修性的定量表示增加定性說明:
發生故障時的通報方式,如燈光、報警信息、報告等;
訪問方式,為便于人員存取和連接測量儀表,模塊化程度等;
診斷,故障直接識別、本身對系統沒有影響的診斷工具、遠程維修支持裝置、統計誤差檢查和報告會;
修復性、更換性:模塊化程度、模塊和元件的明確識別、幾乎不需要專用工具、更換元件或模塊時對其它元件或模塊的影響程度;
檢驗:維護指導程度,極少量檢驗要求。
2.5忠實性 (integrity)
在系統處于不能正確執行某些或全部功能的狀態時,系統發出警告的能力。
系統的忠實性取決于在系統的輸出元件上實現的檢驗輸出是否正確的機理,同時也取決于系統內部實現的檢測和防止系統部件之間錯誤地傳輸信號和數據的機理。對于每一個其本身就可被看作是一個系統的相關部件而言,這兩種內部機理就是忠實性機理或防護性機理。
2.6 防護性 (security)
系統拒絕任何不正確輸入或未經許可進入系統的能力。
系統的防護性取決于系統邊界上實現的檢測和防止不正確的輸入或未經許可存取的機理。
2.7安全性(Safety)
免除不可接受的風險影響的特性。
2.8完全完整性(safety integrity)
在所有規定的條件下系統在規定時間內實現所需安全功能的可能性
2.9安全完整性等級 (SIL)(safety integrity level(SIL)
一種離散的等級(四種可能等級之一),用于規定分配給E/E/PE安全相關系統的安全功能的安全完整性要求,在這里,安全完整性等級4是最高的,安全完整性等級1是最低的[3]。
2.10系統 (system)
系統可定義為用一定的方法組織起來獲得特定功能的子系統的部件集合。這些功能分配給系統中的子系統和部件,且系統的性能和狀態隨著子系統或部件功能的改變而改變。系統對輸入做出響應以產生指定的輸出,同時與環境相互影響。一個通用的系統模型如圖2所示。

圖2 工業過程測量和控制系統模型
2.11可用性與安全性的關系
安全性和可用性相互關聯,對安全性要求和可用性要求之間的沖突如果管理不善,會妨礙獲得可信的系統。其相互關系如圖3所示。

圖3 控制系統可用性、安全性與可靠性和可維修性的關系
由圖3可知,只有滿足了可靠性和可維修性的所有要求,并控制正在進行的、長期的維修、運營活動及環境,才能達到運行期間的安全性和可用性的目標。
3 評估可信性時需要進行的分析
要評估一個系統的可信性,必須確定和評估對系統可信性起決定作用的一些子特性,每一種子特性都取決于系統模塊的結構配置以及這些模塊的可信性特性,這些模塊的子可信性特性與系統的可信性特性之間的關系可能是相當復雜的。系統級的每一種子特性可能取決于模塊級的若干種子特性。可信性的某些特性可以用概率表示,有些特性可以量化,有些特性只能用定性的方法加以描述。
當一個系統執行若干個系統任務時,其可信性可能會因系統任務的不同而發生變化,這就需要分別對每一項任務進行分析。需要對每一項任務明確所涉及的子系統、模塊、元件,明確任務的相對重要性(重要度分級),認定任務故障的定義,以可信性特性表示的故障的判斷依據、工作和運行環境。
4 評估可用性與安全性時需要考慮的影響因素
4.1評估可用性
系統的可用性取決于系統各個部件的可用性以及這些部件在執行系統任務時的協作方式。部件的協作方式可包括功能冗余(同類或不同類)、功能退化和功能下降。事實上,可用性取決于所采用的程序和可用于維持系統工作的資源。系統的可用性對于系統的每一項任務來說可能是各不相同的。各項任務的系統可用性可以按兩種方式加以量化。
4.1.1預計系統的可用性時,可按式(1)計算:
可用性=平均失效前時間/(平均失效前時間+平均恢復時間) (1)
式中: “可用性”指規定任務的系統可用性;
“平均失效前時間”是從系統恢復到執行規定任務的狀態起,至因故障而中止執行任務止的平均時間;
“平均恢復時間”是從系統因故障而中止執行任務起,至恢復執行規定任務止所需總時間的平均值。
4.1.2對于正在工作中的系統,可以用下列公式計算可用性:
可用性=系統已經能執行任務的總時間/預計系統執行任務的總時間
4.2可用性與安全性的綜合評估
影響控制系統可用性與安全性的因素,主要來源于系統生命周期中任何階段系統內部的失效(系統因素)、運行過程中環境因素導致的失效(運行因素)和在系統維修工作中導致的失效(維修因素)。這些失效源相互作用,其關系如圖4所示。

圖4控制系統可用性與安全性的三個影響因素
系統因素考慮是的在系統生命周期內任何階段系統內部的失效,包括系統性失效與隨機性失效兩類。導致系統性失效的原因通常有要求錯誤、設計與實現不充分、制造缺陷、內在缺點、軟件錯誤、工作指令不足、指令不充分、人為錯誤等等;導致系統隨機性失效主要是由于工作模式、環境、應力、磨損等原因導致的可靠性不足。
運行因素考慮的主要是環境條件、人為因素、工作程序、任務變動、后勤等過程中強加給系統的失效。
維修因素考慮的是人為因素、維修程序、售后服務等在系統維修工作中強加給系統的失效。復雜控制系統的維護維修是一項技術管理綜合性很強的工作。
為了實現高可用性與高安全性的系統,需要確定所有影響因素,評估其影響,并且在系統的生命周期內應用適當的控制來駕馭產生這些影響的原因,使系統性能得到最優化。
5 需要掌握的基礎與評估技術
進行控制系統可信性評估,需要具備一些基礎的技術基礎,同時掌握定性與定量的評估技術,根據評估的實際目標,制定評估計劃方案。
5.1需要掌握的技術基礎
5.1.1需要掌握的可用性基礎技術
(1)可靠性包括:
·規定應用及環境下所有可能的系統失效模式
·每個失效發生的概率,或者每個失效出現的幾率
·失效對系統功能的影響
(2)可維修性包括:
·執行計劃維修的時間
·故障檢測、識別及定位的時間
·失效系統的修復時間(計劃之外的維修)
(3)運營和維修包括:
·系統生命周期內全部可能的工作模式和必要維修
·人為因素的問題
5.1.2需要掌握的安全性相關技術概念
(1)在所有運行、維護和環境模式下系統中所有可能的危害
(2)每個危害的特征,以危害后果和嚴重性表示
(3)安全性/安全相關的失效包括:
·導致危害的全部系統失效模式,它是全部可靠性失效模式中安全相關的失效模式子集,需要考慮“規定應用及環境下所有可能的系統失效模式”、“每個失效發生的概率,或者每個失效出現的幾率”以及“ 失效對系統功能的影響”;
·每個安全相關系統失效模式發生的概率;
· 在應用中,可能導致事故的事件(即導致事故的危害)的順序和(或)并發率、失效、工作狀態、環境條件等等;
·應用中,每個事件、失效、工作狀態和環境條件等出現的概率;
· SIL確定與SIL驗證技術。
(4)系統的安全相關部件的可維修性包括:
·與安全相關失效模式或危害有關的系統中子系統或部件維修的方便性;
·系統安全有關部件在維修工作期間內發生錯誤的概率;
· 系統恢復到安全狀態的時間。
(5)系統操作與系統安全相關部件的維修包括:
·人為因素對系統安全相關部分的有效維修及系統安全運營的影響;
·用于系統安全有關部分的有效維修和系統安全運營的工具、設備和工序;
· 有效的控制、處理危害并減輕危害后果的措施。
5.2采用的評估技術
可以采用多種技術評定控制系統的可用性與安全性,但必須選用能將評定結果與系統要求文件的要求做定性和(或)定量比較的評估技術。
5.2.1定性評定技術
定性評定的基礎是預測分析或試驗。無論是預測分析還是試驗,都需要通過分析系統的功能結構和物理結構,確定系統執行任務的方式才能開展評定。系統的結構可以用功能框圖和物理框圖、信號流程圖、狀態圖、表格等來描述。考慮系統所有元件(硬件和軟件)的故障模式,確定其對系統任務可用性的影響,以及可維修性要求的影響。
5.2.1.1歸納分析法
歸納分析法是一種定性的分析方法,它采用的是一種自下而上的方法,在組件或元件層次上確定故障模式,分析每一種模式對高一級系統任務可信性的影響。此故障的影響即成為高一級層次的故障模式。這種方法要到最后才能確定各種假設故障模式在系統各個層次上的影響。
5.2.1.2推斷分析法
推斷分析也是一種定性的分析方法,它從系統最高層次的假設故障即任務故障開始,各層次依次進行,直至底層。逐層分析以確定將導致最高層(即任務層)產生故障的故障模式和相關故障。沿著功能上的和物理上的路徑,重復這種分析直至獲取足夠的可用性信息,供評估用。對于不屬于假設事件的故障模式,推斷分析不提供任何信息。但對于較復雜的系統,推斷分析則非常節省時間。對于比較復雜的系統來說,描述如何認定系統的故障或成功要比認定系統各組件的所有各種可能的故障模式方便得多。
故障樹分析是一種適用的推斷分析法。
5.2.2定量評定技術
定量評估技術的依據可以是預測分析和計算,也可以是試驗。定量評定也必須從分析系統的功能結構和物理結構以及系統執行任務的方式入手,采用預測評定或試驗方法進行。
5.2.2.1預測評定
預測評定以定性分析結果輔以系統元件基本可靠性(故障率)的量化值為依據。在定量表示系統執行任務的故障率時需要采用預測分析法。可靠性框圖法是一種適用的預測分析法,另外,各種數據工具如布爾代數、真值表、通路割集分析等也都可用于計算故障率。在以定量的方法預測多狀態情況下系統執行任務的故障率時,可以采用馬爾可夫分析法。
5.2.2.2試驗
僅僅通過系統一級的試驗來判定一個復雜系統的可靠性與可用性,既不現實也不經濟。通常情況下,復雜系統都是獨一無二的(樣品數為1)。此外,試驗的范圍必然會受到允許試驗時間的嚴格限制。但對于已經投入運行的系統,這類試驗則能提供有價值的數據。
由此所取得的實驗數據可能用于:
· 日后指導改進系統設計和系統結構,重新設計或更換易出故障的設備和軟件;
· 將預期特性或規定特性與實際數據相比較;
· 產生可用于今后可信性預測的現場數據。
對系統進行實驗的主要目的是評定系統在出現硬件和軟件故障、出現未經許可或錯誤的輸入時的工作狀態。為了觀察系統的工作狀態,首先應確定一項或一組典型的任務,同時確定每一項任務的被認為屬于故障的系統狀態,例如輸出狀態。
主要有故障插入試驗與環境擾動試驗兩類。
(1)故障插入試驗
對于具有高可用性與高安全性的控制系統來說,其基本特質之一就是無論其元件出現故障還是受到來自各界面外的干預,都必須能正確地執行其功能。故障插入試驗可以驗證系統的這一特質。試驗的方法包括制造故障和(或)引入未經許可的或錯誤的操作,觀察由此造成的系統工況,如輸出狀態及發出的信號。觀察輸出狀態時,需要考慮如:
·出現故障時輸出是否輸入或凍結在預定的位置(對安全系統來說,就是進入安全狀態)?
·屏幕不能正確工作時,鍵盤是否能自動鎖定?
·通信過載時系統如何動作?
·插入故障后監視、報警和打印裝置是否有信號顯示?
為有效利用時間,應該在定性分析的基礎上設計系統試驗項目,并盡可能使用系統所具備的診斷特性。對于安全相關系統,診斷特性本身必須單獨接受試驗。在GB/T18272.5-2000標準的附錄C中,列出了若干種故障可供試驗使用。
(2)環境擾動試驗
對于具有高可用性與高安全性的控制系統來說,另一個基本特質是應能承受環境擾動而不影響其執行正確的功能。
環境擾動實驗是試驗系統的防護性機理。需要考慮如系統過載、系統連接的工業過程和外部系統的影響如電噪、系統使用的公用設施如氣、電壓變化、系統所處的環境如溫濕度等的影響。所選擇影響條件的變化應不超出正常值范圍。
6 結語
在我國石油、化工、電力、冶金、機械等領域,對于在役過程控制系統的可信性評估,包括風險評估、安全評估、可用性評估、可靠性評估等等要求日益增多。迅速建立我國控制系統可信性評估技術與管理體系、幫助企業建立自己的評估隊伍與專業人才是當務之急。
參考文獻:
【1】GB/T21562-2008/idtIEC62278 ,軌道交通 可靠性、可用性、可維修性和安全性規范及示例[S].
【2】GB/T18272.5-2000/idtIEC61069, 工業過程測量和控制系統評估中系統特性的評定 系統可信性評估[S].
【3】GB/T20438.4/idtIEC61508, 電氣、電子、可編程電子安全相關系統的功能安全[S].