AI醫療影像數據平臺需求分析

1 背景

目的

本文檔是XXXDataBank V1.0版本的需要概要文檔,用於描述為什麼需要進行XXXDataBank的開發,DataBank在XXX產品體系中的價值和意義。本說明書為內部文檔,請勿將此文件修改、傳播或進行其他使本文檔公開的行為。

參考材料

其它相關資料、文件

術語、縮略語


2 什麼是XXXDatabank?

AI醫療影像數據平臺需求分析

圖1:XXXDataBank框架總覽圖

從這個框架總覽圖中我們可以看出來XXXDataBank是一個集數據採集+數據倉庫+數據可視化+數據分析於一體的綜合數據解決方案。解決方案主要包括以下內容:

數據源:我們的數據源主要有設備、客戶端、外部導入以及第三方數據,這些數據包括媒體數據(影像、圖片等)、文件數據(標註文件、日誌文件等)、數據庫文件。

統一數據規範:定義元數據的數據規範(如:定義影像數據的數據標準,採用何種格式進行上傳)及特殊數據的數據定義(定義影像分析時長:從影像上傳成功到收到AI結果)。

數據採集:主要通過以下三種方式來進行數據採集:(1)數據埋點:在網頁、小程序、App和後臺代碼中通過定義對應的事件精確上報指定定義的數據。(2)流處理:處理系統傳輸(如接口請求)流數據。(3)批處理:老數據遷移和外部數據導入使用此種方式。

ETL過程:數據從採集到進入數據倉庫的過程,由於數據量巨大,且數據種類多,需要專門的中臺ETL來處理數據入庫。

數據倉庫:數據庫+文件系統,用於存儲數據並向外提供統一數據規範的數據供進行數據分析和業務系統使用。

數據抽取:支持業務及數據應用服務通過約定的規則和規範對數據進行清洗後做數據提取,並能夠自由組合數據抽取規則(比如算法組希望從數據倉庫中抽取100份年齡介於45-60之間的男性影像數據作為測試集來進行影像分析)和清洗規則(比如算法)。

數據應用:為業務系統、產品、市場銷售和管理層提供包括數據分析數據報表在內的數據應用。


這個解決方案可大幅增強公司的數據整合分析能力,為公司產品規劃和迭代提供數據支撐,在大幅提升數據安全性同時讓算法組今後開展更多維度的算法分析提供成為可能。


3 為什麼要開發XXXDatabank

XXX數據現狀

隨著公司的持續發展,目前公司已經積累了大量的數據,數據涵蓋了醫療影像數據、醫療影像標註數據、用戶信息數據、業務信息數據等,且還有許許多多未能被記錄的數據。這些數據具有以下特徵:

數據量大


數據結構化程度低:除MIAS和EyesTime數據庫中的數據外大部分數據都是非結構化的,比如AI分析,AI診斷等,大量非結構化數據導致目前數據分析難度大效率低。

高階數據少:如算法的執行時間,用戶使用時長、頻次、檢查全流程時間等系統高階都是缺失的,無法為系統性能提升和後續產品優化提供有效的數據支撐。

數據關聯度差:由於早期公司資源受限,只能將有限的資源用於儘快研發出產品和算法,導致公司各個系統之間的數據缺乏關聯。大部分的影像數據和用戶數據無法關聯,來自外部的資源信息無法有效關聯至目前系統中(比如微信數據和EyesTime數據關聯度低)

數據分析難度大:由於以上種種原因導致了我們的數據分析難度大,只能做相對獨立和簡單的數據分析,難以實現多維度多關聯的數據分析。


建立一個規範、高效、互聯的綜合數據平臺將能大大改善目前的現狀。

XXX數據使用現狀


場景1:算法組使用MIAS中的影響數據作為測試集

需要用硬盤去MIAS數據服務器上進行手動拷貝


場景2:算法組有一個新課題是針對45-60歲人群中高血壓人群的影像進行分析

需要花較多的時間去進行數據提取


場景3:公司希望對2018年的篩查數據做多維度多關聯的分析,形成《2018XXX篩查白皮書》

難以實現


從以上3個典型數據應用場景可以看出目前公司數據使用存在數據使用層次低、數據使用流程不安全、數據使用方式不便捷等問題。


XXXDataBank將能有效提升目前的數據使用便捷性、安全性並讓高階數據分析成為可能。

XXX大數據

根據公司未來發展規劃,遠期將啟動大數據項目,而大數據是需要由一個個精準、規範、完整的小數據組成,這關係到我們實際業務場景的分析和數據指標體系的搭建,此外還要能進行多樣的比較分析。

及早建立綜合數據平臺能為將來公司進行大數據開發提供完備的數據支撐。基於XXXDataBANK的數據應用


4 XXXDatabank數據應用流程

數據標註系統數據流程

AI醫療影像數據平臺需求分析

算法數據集提取流程

AI醫療影像數據平臺需求分析

智能報表生成流程

AI醫療影像數據平臺需求分析

1


分享到:


相關文章: