大數據可視化技術 爲橋樑SHM數據的有效利用提供可能

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

結構健康監測技術被廣泛應用於大型橋樑的養護管理,但受數據分析方法和計算方式的限制,橋樑結構健康監測系統所積累的海量監測數據並未得到有效利用。近幾年,大數據技術的發展為橋樑結構健康監測數據的有效利用帶來了希望。大數據可視化分析是大數據分析的一個分支,能夠實現高維數據可視化的同時,識別數據中的模式。

橋樑SHM的數據應用

在傳統的橋樑養護管理中,基於人工檢測的結構狀態評估扮演了重要角色,然而人工檢測工作量大、主觀性強,難以實現對結構性能的長期定量跟蹤。近年來,結構健康監測技術(Structural Health Monitoring, SHM)在大跨橋樑的養護管理中得到廣泛應用。橋樑結構健康監測通過在結構上安裝傳感器,以實時獲取橋址環境和結構響應的信息,並基於這些信息對橋樑的技術狀態做出實時、自動的評估甚至安全預警。我國當前至少有240多座大跨度橋樑安裝了結構健康監測系統(Structural Health Monitoring System, SHMS),經過長期的觀測,這些監測系統積累了大量的數據,基於這些數據有效解讀結構的狀態、識別可能的損傷,成為目前SHM研究的關鍵問題。

利用SHM數據進行結構狀態評估和損傷識別有“基於模型”和“數據驅動”兩類方法。基於模型的方法本質上是橋樑結構有限元建模、模型修正、系統參數反演的過程,對理論模型的精度和監測數據的質量有很高的要求,目前在實際工程中應用效果還不理想。數據驅動的方法關注監測所得到的輸入和輸出數據相關關係的變化規律,以識別結構狀態所對應的模式,藉助於成熟的統計學理論,數據驅動方法在SHM中得到廣泛應用。但傳統的統計方法由於計算能力和分析手段的限制,只能分析少部分、低維度的數據樣本,且無法高效地呈現分析結果,因此尚不足以解決海量、高維SHM數據的分析問題。

大數據技術是近幾年的新興技術,已在互聯網、電子商務、醫學等領域得到廣泛應用,改善了計算能力不足、數據分析方法低效等問題,在SHM的數據處理上也展現出廣闊的應用前景。大數據可視化分析是大數據分析的一個重要分支,該方法將人所具備的、機器並不擅長的認知能力融入到分析過程中,可提升數據分析的效率和準確性,並可對高維數據進行直觀的呈現。

“大數據”概念

“大數據”概念首次提出於1996年,2008年《Nature》雜誌推出大數據專欄,2011年麥肯錫公司的研究報告對大數據的關鍵技術和應用領域等進行了全面的分析總結,大數據逐漸為各行各業所關注。“大數據”的內涵和外延在不斷地被豐富,在不同的文獻中,“大數據”被描述為數據集、可實現的功能、數據變現過程、架構和技術等。大數據應該從數據集特徵、思維方式、技術三個方面進行理解(圖1)。

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

圖1 大數據的構成

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

圖2 大數據分析流程

一般認為,大數據具備4V特徵,即數據體量大(Volume)、種類多(Variety)、增速快(Velocity)、價值密度低(Value)。4V特徵並沒有明確地限定大數據的體量規模,因而可廣泛適用於各個行業。

大數據分析應具備的三個思維方式,即“使用全體數據進行分析”“接受數據混雜性,數據量大彌補質量差”“追求相關關係而非因果關係”。因而具有以下特點:與傳統統計分析只使用一小部分隨機抽樣數據相比,使用全體數據可以發現更多的細節和有價值的信息;接受數據混雜、增大數據量能夠簡化分析模型並避免過擬合,從而獲得更準確的分析結果;從相關關係切入則可為數據分析提供新的視角。當前大數據處理技術已使得分析所有數據成為可能,通過大數據分析挖掘相關關係也取得了許多成功應用;但以數據量大彌補質量差時,如果全部數據中的噪聲多於信號則信號易被掩蓋,因此不能盲目收入所有數據,仍需尋找與分析目的強相關的數據。

大數據的技術主要體現在數據採集、存儲、計算處理、分析方法等幾個方面。大數據的採集、存儲、計算等多以軟件工具的方式呈現,如用於獲取數據的物聯網、互聯網,用以存儲數據的Hadoop分佈式文件系統、NoSQL數據庫,用於數據計算的Hadoop生態圈、MapReduce、Spark、Storm、雲計算等。大數據分析方法涵蓋以各種術語所表示的數據分析方法,包括數據庫知識發現(KDD)、數據挖掘、機器學習、模式識別、統計學等。這些術語雖然在應用領域和關注點上有所不同,但當前在大數據語境下,其間的差別可不必考究。

與大數據分析方法有關的另一個術語是人工智能,它是一個宏大的概念,它的提出遠早於大數據。人工智能與大數據分析的主要區別是目標上的不同,前者是產生具有智能行為的東西,後者則用以發現數據中隱藏的知識。但二者都要靠大數據實體的支撐實現,且可以共用分析方法。當前人工智能的代表技術是深度學習,屬於機器學習的一個子集,由於在圖片、語音等識別問題中的出色性能,常脫離於機器學習被突出強調。

KDD、數據挖掘等同於機器學習,貫穿於大數據分析的整個流程,模式識別是其中的一個環節。大數據分析流程在KDD流程的基礎上得到完善,強調了多源異構數據融合和特徵提取的重要性,最終可由數據預處理、數據融合、特徵工程、模式識別、可視化等環節構成。但應該注意到,這幾個步驟之間的順序並非絕對的一成不變,且有可能在某一步實現多個功能。

數據可視化在大數據分析流程中的功能是呈現數據分析的結果,當被直接用於探索數據、挖掘數據中的模式時也被稱為大數據可視化分析。大數據的一個特徵是數據種類多,在數據集中表現為數據的維度高。高維數據難以有效地可視化,且會引起數據分析中的維度災難問題,即數據集在高維空間中分佈稀疏,缺乏足夠的數據構建模型。傳統數據分析常以降維的方式減少數據集中的變量數,由此也會帶來原始數據集中信息量的減少。大數據可視化分析為有效地呈現、分析高維數據提供了新的思路,在SHM的模式識別問題中也展現出應用的潛力。

平行座標圖(PCP)方法研比

平行座標圖法(parallel coordinate plot, PCP)、t分佈隨機鄰域嵌入法(t-SNE)是當前高維數據可視化中常用的兩種方法。t-SNE在高維空間中構建每個數據點對其近鄰的概率分佈,並在低維空間中重構該概率分佈,通過最小化兩個概率分佈間的差距,以保證高維空間中的數據點在低維空間中具有相近的局部結構,最終將結果顯示於二維或三維座標圖上。t-SNE雖然能有效探知原始數據的結構和分佈,但需要很高的計算開銷。與t-SNE相比,PCP不需要對原始數據進行降維顯示,且具有更高的可視化效率。PCP通過N個平行座標軸將N維數據投射到二維空間中,每個數據點被表示為PCP中的一條線段,由此原始的高維數據集可被表示為一個幾何系統。PCP能夠呈現數據間的相關關係,因而具有模式識別功能,這也體現了大數據“追求相關關係而非因果關係”的思維方式。PCP的模式識別功能由三個重要的可視化特徵實現,分別為以下幾方面——

線段夾角,表明變量間的正負相關關係,圖3(a)中線段交匯於一點,表示兩變量間具有強負相關關係,圖3(c)中線段彼此平行,表示兩個變量間具有強正相關關係。

線段交點區域,表明變量間相關關係的強弱,圖3(b)線段交匯於一個區域,表示兩變量間具有弱負相關關係。

線段分佈,表明趨勢模式或異常點模式。趨勢模式對應密集區域的線段,異常點則是稀疏區域的線段。圖3(d)下方的線段可判斷為趨勢,上方的線段為異常點。

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

圖3 平行座標圖

PCP用於大數據集時,線段數量的增多會造成線段間的重疊、遮擋(圖4),從而掩蓋座標圖中的可視化特徵。為消除線段重疊、減少視覺混雜,學者們提出了各種改進的PCP方法。基於Alpha混合的PCP方法較早地被提出,其將PCP中的每條線段賦予較低的透明度,使線段稀疏部分的顏色被淡化、線段密集區域的顏色被加深。此種方法的缺陷是透明度值存在下限,不能擴展到更大規模的數據集中。基於分佈直方圖的PCP方法(圖10)按每兩個變量計算二維分佈直方圖,以直方圖中的每一格表示座標圖中的一條線段,並按直方圖的頻率值設定線段的透明度。由於能在大幅減少線段數量的同時,保留PCP中的可視化特徵,基於分佈直方圖的方法可被擴展到更大規模的數據集。除此之外,PCP中減少視覺混雜的方法還有基於捆紮的方法、基於聚類的方法、基於刷的方法等。

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

圖4 PCP中的線段重疊

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

圖5 基於透明度的方法

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

圖6 基於分佈直方圖的方法

PCP在SHM中的應用

結構健康監測案例

橋樑SHM的監測內容主要包括環境運營荷載與結構響應兩類,環境與運營荷載的監測項有溫度、降水量、空氣溼度、風荷載、交通荷載、地震輸入等;結構響應監測項有幾何變形和位移、加速度、應變、轉角、索力等。基於SHM數據首先可以進行結構損傷或異常識別,但在實際橋樑中這還很難理想實現,一是因為當前國內安裝有SHMS的大部分橋樑服役時間較短,尚未出現明顯的損傷和退化;二是受傳感技術和數據分析方法的限制,結構初期的微小損傷難以被識別。進行結構狀態評估是SHM的主要目的之一,對於服役初期階段尚無明顯損傷的新結構,SHM數據可用於分析正常環境與運營荷載下的結構響應規律,從而定義結構的正常狀態,並分析結構狀態發生偏離的原因。與結構狀態評估有關的研究還包括荷載效應分析、可靠度分析、安全預警、傳感器故障識別等。

在數據驅動的方法下,橋樑結構損傷或異常識別與狀態評估大都可歸類於模式識別問題。傳統數據驅動的分析中,模式識別前一般要先對多通道、多種類的傳感器時間序列數據進行降維,以提升機器學習方法的效率和準確性。然而降維存在定階的問題,即需要確定最終的變量個數,儘可能多地保留原始數據中的信息。此外,損傷識別、傳感器故障識別等問題常缺乏足夠的標註數據,使得有監督學習方法很難被應用;無監督學習雖不使用標註數據但對參數設定敏感,且很容易陷入局部最優解。PCP將人的認知能力融入到數據分析中,為無法使用有監督學習及無監督學習不穩定情況下的模式識別提供了新的思路,並可直接對原始高維數據進行可視化。本文中,PCP在SHM模式識別中的性能將通過2個數據集驗證,這兩個數據集均取自某斜拉橋的健康監測系統。該斜拉橋共佈設有169個各種類型的傳感器,可實現對環境荷載與結構響應的長期實時監測。

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

圖7 某斜拉橋傳感器佈置圖

基於PCP的傳感器故障識別

第一個數據集取自2007年,包括四個數據維度,分別表示設置在主樑伸縮縫處的兩個伸縮儀(DP001,DP002)和跨中鋼箱梁腹板、底板位置的兩個溫度計(ST002,ST009)所測的17520條數據。兩個伸縮儀在安裝時因對梁體的熱膨脹考慮不足而沒有設置足夠的預張量,使得夏天高溫時段的伸縮儀監測值溢出其量程而不再發生明顯變化。發生故障的兩個伸縮儀中,DP001在高溫時段過後恢復工作,DP002則自此一直處於故障狀態(圖8)。除了正常變化狀態和伸縮儀故障兩種模式,時程圖上以0值出現的離群點構成了另一類數據模式,其由供電中斷等臨時性故障引起,可被視為數據中的噪聲。PCP被用以識別這三種模式,為避免數據量增大產生的線段重疊問題,在此分別使用了基於Alpha混合(圖9)和基於分佈直方圖的PCP方法(圖10)。

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

圖8 伸縮儀與溫度時程

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

圖9 基於Alpha混合的PCP

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

圖10 基於分佈直方圖的PCP

通過基於Alpha混合的PCP可以明顯地識別數據集的三種模式。正常狀態的數據表現為兩個伸縮儀間、兩個溫度計間大部分平行的線段,表明變量間具有正相關關係;伸縮儀與溫度計之間的交匯區域(綠色圈內)則表明了二者之間的負相關關係。在兩個伸縮儀對應的座標軸底部均有密集的線段區域呈現較深的顏色(黑色圓圈內),對應著伸縮儀在夏天高溫時段的故障。在深顏色區域中,DP002伸縮儀線段比DP001伸縮儀更為密集,顏色更深,對應著DP002處於失效狀態的時間更長。在4個座標軸最下方區域還存在一些遠離趨勢的線段,即異常點模式(藍色虛線圈),對應著數據中的噪聲點。基於Alpha混合的方法已可明顯地識別出數據集中的3種模式,相比之下,基於分佈直方圖的PCP則可更為突出地顯示所關注的伸縮儀故障數據。

基於PCP的模式識別

上面講到的第一個數據集中,正常狀態、傳感器故障、噪聲等模式是事先已知的。而本節第二個數據集中可知的僅有正常狀態的模式,PCP被用以探索該數據集中是否還隱藏有未知的模式。第二個數據集有7個變量,分別代表結構一階振動頻率(豎向彎曲、橫向彎曲、扭轉)、溫度、風速、交通、溼度、交通荷載,其中交通荷載由該斜拉橋跨中所測加速度的均方根值(RMS)表徵。該數據集的時間跨度長達5年,按每小時一個數據點的頻率計算得到了由2007年至2012年共52608條數據。為研究環境與運營荷載對結構動力特性的影響規律,各變量之間的相關係數也分別被計算,並顯示在圖11、圖12中PCP的下部。在該數據集的模式識別中同樣使用了基於Alpha混合(圖11)和基於分佈直方圖(圖12)的方法。

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

圖11 基於Alpha混合的PCP(Alpha=0.001)

大數據可視化技術 為橋樑SHM數據的有效利用提供可能

圖12 基於分佈直方圖的PCP(劃分間隔數=200)

基於Alpha混合方法的PCP中,風速與扭轉頻率、豎彎頻率的平行座標軸之間各存在兩個狹長的深色區域(藍色圓圈),可表明兩個變量間具有一定的正相關關係。這兩個變量與風速的相關係數分別為0.199和0.132,則可推斷該相關係數很大程度上由PCP中的狹長深色區域解釋。同理,由在豎彎頻率與溫度、橫彎頻率與交通荷載座標軸間識別到的深顏色交匯區域(綠色圓圈),也能很大程度上解釋這兩組變量間的負相關係數。除了表示正相關關係的狹長形深色區域和表示負相關關係的交匯區域,還可在圖中識別到一些表現為細條形的模式,如交通荷載和橫彎頻率座標軸間黑色圓圈中所示。上述由PCP可視化特徵識別的相關關係僅對應著數據集中的一部分數據,在此將其定義為“局部相關關係”。局部相關關係模式所具備的物理意義當前尚無法解讀,有待於通過交互式的PCP方法提取出來作進一步的分析。

由於數據量較大,基於Alpha混合的方法必須設定很小的透明度值(在此為Alpha=0.001)。但Alpha值在繪製PCP的OpenGL(繪製計算機圖形的函數庫)中不可能無限小,在更大規模的數據集中,該方法仍將受到線段重疊的影響而無法使用。基於分佈直方圖的PCP方法中,線段數量取決於分佈直方圖的數量,可不受透明度下限值的影響。採用分佈直方圖方法的圖12中交換了部分座標軸的順序,仍可以識別線段交匯的深色區域、細條形深色區域所表示的局部相關關係,但對狹長形的深色區域呈現不夠明顯,這與該模式的特徵不明顯有關,也說明在繪製PCP的過程中應結合使用多種參數(直方圖數、透明度等),以更全面地識別可能被遺漏的模式。

在橋樑結構健康監測領域,深厚的力學背景雖決定了對橋樑結構機理和行為較高程度的認知,但實測數據中仍存在環境與運營荷載、採集設備故障等所產生的不確定性因素。認知這些不確定性因素、從中識別隱藏的模式,併合理解釋其對應的物理現象,是採用包括可視化分析在內的大數據分析方法應試圖去解決的問題。

本文介紹了在大數據可視化分析中常用的PCP方法,通過某斜拉橋結構健康監測系統所採集的兩個數據集,對其數據可視化和模式識別功能的適用性進行了驗證,可得到以下結論:

(1) PCP方法可用以識別傳感器故障引起的數據異常,基於分佈直方圖的PCP方法能夠更為突出地顯示該種模式。

(2) PCP方法中的趨勢模式可呈現環境荷載與結構響應之間的局部相關關係,且能夠反映大數據分析“追求相關關係而非因果關係”的思維方式。

(3) 與局部相關關係模式對應的數據有必要被提取出來以進一步的分析,能夠選擇並提取相應線段的交互式PCP方法仍有待於在後續研究中被開發。

大數據方法在結構健康監測數據分析中的應用研究才剛剛開始,橋樑結構是遵循力學原理設計出的一個人工產品,相應的監測數據具有明顯的“工業大數據”特徵,在借鑑其他領域的大數據分析方法時,我們也應十分注意方法的適用性,避免步入誤區。

作者 / 孫利民 尚志強

作者單位 / 同濟大學橋樑工程系


分享到:


相關文章: