【創科廣場】雙算法攻「智慧醫院」應用 減省資源效率改善

2021-02-26 07:44

香港科技園與醫院管理局合辦「AI Challenge」比賽,以研發與人工智能相關方案。比賽以「辨別手術工具」為題,參賽者設計機器學習模型,辨別、定位及點算醫院手術室中的醫療工具。

 

同的人工智能模型皆以項目預設的評分準則進行評估。是次比賽獲50家本地及海外科技企業報名參加,晉身決賽的11支隊伍則獲邀提交AI模型。勝出隊伍獲安排與醫管局探討合作機會,研發「智慧醫院」的應用。

 

參賽隊伍向醫管局呈交訓練的視像運算模型,醫管局在本身運算環境,辨認有關物件種類、定位及點算數目,作為計分準則。

 

中信國際電訊CPC首席信息及創新總裁鄺偉基說,參賽是為了讓隊伍有機會接受不同挑戰,由於中信國際電訊應用集中在視頻分析,除了今次比賽要求的辨認物件、定位和數量以外,還自行加上了辨認速度。

 

中信國際電訊CPC正在開發「DataHOUSE AR千里眼」,其中一項功能是從傳回視頻辨識物件,穿戴AR眼鏡現場人員,以眼鏡鏡頭辨認數據中心設備,AR眼鏡電池和算力有限,從AR眼鏡捕捉的影像,直接回傳雲端,或利用5G送往邊緣雲多接取邊緣運算(MEC)執行推論(Inference),結果傳回AR眼鏡。

 

95毫秒99%準確度

 

「AR眼鏡傳回大量影像,須快速處理並傳回結果,推理速度十分關鍵。雖然比賽沒要求推論速度,我們要求團隊在100毫秒ms(1秒=1000毫秒)內完成推理。」

 

辨別、定位及點算的醫療物件,主要為置於盆內多款手術刀和工具。鄺偉基說,比賽為視覺運算帶來一定挑戰,手術工具只有些微差別,置於盆上更難以辨認。

 

「DataHOUSE AR千里眼」終端是AR眼鏡,推論時間必須要快,團隊須先考慮速度,最終合併2種不同算法,首先是常用於物件辨識,以速度聞名的YOLOv4算法。

 

「訓練模型使用過萬張圖片,採用了2種算法建立視覺運算模型,最長於95毫秒ms內達到99%準確度。

 

也就是說技術人員在數據中心,看到某項設備,不足一秒可在辨認完畢,並傳回結果通知。

 

  鄺偉基說,比賽顯示集合2種算法,速度和性能,要比純以單一的算法,不斷加深網絡深度效果為佳,為日後開發加快辨認物件,帶來了啟示。

 

YOLO速度無出其右

 

YOLO架構由Joseph Redmon在2015年首先開發,為最常用物件辨認算法之一,尤適合處理多幀的視頻,以YOLOv4辨認有一定準確度,同時又維持高幀率處理,但是YOLOv4的準確率亦有限制,即使再增加網絡的深度,準確度邊際效益卻下降,同時亦帶來了性能問題。

 

團隊用了多張不同照片來訓練模型,YOLOv4速度雖快,應付細微物件辨認,或較難辨認的背景,YOLOv4難再應付時,交由另一種算法建立的模型。

 

神經網絡層數愈深,算力損耗愈大,YOLOv4辨認準確度一旦不足,模型就交予新開發的Weakly Supervised Data Augmentation Network (WS-DAN)算法處理。

 

減省資源讀得更準

 

  WS-DAN是微軟亞洲研究院剛提出的算法,年初論文ArXiv刊登後,引起業界的注意。論文題目為《See Better Before Looking Closer》,也就是在不加深神經網絡的層數,可達更佳分類效果。手術刀與盆底顏色接近,背景雜訊等干擾因素,可影響辨認效果,WS-DAN可通過Bilinear Attention Pooling抓住物件的特徵增強數據,提高辨認的準確率,毋須過深神經網絡;以改善模型效率。

 

  WS-DAN在不加深神經網絡情況下,分類和辨認細微和難辨物件,團隊合併了YOLOv4和WS-DAN算法之後,獲得優化的結果。

 

「某些極難辨認手術刀,採用WS-DAN只以50層神經網絡,物件辨認Object Detection Accuracy(mAP)可達到99,YOLOv4要再加深,則耗用更多算運資源。」

 

  鄺偉基說,今次非中信國際電訊CPC以混合算法策略,攻克視覺運算上的難題,以往亦開發混合算法,以辨識戴口罩者的人臉。類似比賽讓團隊有機會解決實際問題,啟發出不同方法,獲獎反是其次。

 

  問題比答案重要,而問題愈是困難,往往愈激發創意。

 

關鍵字

最新回應

關鍵字
You are currently at: 187235123.xyz
Skip This Ads
close ad
close ad