圖1: SFX實驗示意圖
SFX數據分析
重要進展
我校a8体育數據團隊在X射線自由電子激光的超大規模數據分析中取得進展🧑💻,采用弱監督學習方法有效降低了機器學習模型對人工標簽數據集的依賴性,大幅提升了串行飛秒晶體學衍射圖案數據約簡的模型通用性。該成果於9月20日以“Weakly supervised learning for pattern classification in serial femtosecond crystallography”為題,在學術期刊Optics Express上在線發表➜。
串行飛秒晶體學 (SFX) 是X射線自由電子激光 (XFEL) 裝置的重要實驗方法學,能夠在常溫條件下對微小尺寸晶體提供前所未有的結構探測能力。目前XFEL裝置正朝著高脈沖頻率、大像素探測器的方向發展,國際各大裝置均在發展機器學習方法✊🏼,以期實現高通量數據的在線篩選和約簡,極大地降低數據量,提升科學發現的效率。但是目前能較好地應用於圖像分類的算法都是監督型學習🧑🏿🏫,需要非常高的時間成本和專業成本為大量的衍射圖案標註人工標簽。
圖2:SFX衍射圖案的三種類型,a有信號;b可能有信號;c無信號
a8体育研究人員利用弱監督學習來降低分類模型對人工標簽數據集的依賴性,只利用1/6的標簽數據量來訓練模型🦚,就得到了與完全監督模型相當的識別率。研究結果顯示在同一個實驗站使用同一種探測器采集到的SFX衍射圖案具有某種相似的潛在特征,只需要對少數幾個數據集進行全面的人工標註,采用基於遷移學習微調的模型和基於域對抗神經網絡 (DANN) 訓練的模型都有很高的識別率👐🏽。
基於逐行分解(RWD)的特征變換方法🏊♀️😡,將衍射圖像從二維降至一維🎵,模型的推理速度提升了80多倍,在單塊A100 GPU卡上的測試速度超過了1.1萬張每秒,有助於實現模型在線化部署。與歐美科研人員發表的研究結果相比,基於RWD特征變換的模型在通用性方面表現出了顯著的提高👩👩👦👦👩🏽🔧。SHINE建成後脈沖重復頻率可高達1 MHz,SFX實驗的超高數據通量(百GB每秒)和數據總量(PB級)給科學數據處理帶來了巨大挑戰,上述研究成果將在SFX實驗數據的約簡處理中發揮重要作用🤯。
圖3: 基於RWD方法將衍射圖案降至一維後,三種圖案的特征更容易被學習🤹🏽♀️,所以只需要少量的標簽即可訓練,同時在不同實驗的數據集上有更好的通用泛化能力
a8体育官网物質科學與技術學院2020級碩士研究生謝佳男和信息科學與技術學院2019級碩士研究生劉基為本論文的共同第一作者,a8体育張曉峰副研究員為通訊作者。該論文也是a8体育官网公共選修課程“人工智能在科學與工程學的應用(CS286)”教學成果的一部分,充分體現了上科大創新課程體系與a8体育裝置研發的良好結合。該研究得到了硬X射線自由電子激光裝置項目與中國科學院戰略性先導專項的支持。
論文鏈接
https://doi.org/10.1364/OE.492311