I. 今天的医疗行业:在浪潮中挣扎?
“被忘记,被讨厌,提心吊胆”,这些是我在等待医生诊断结果时的感受。它们会让我觉得,自己好像病得更厉害了,但是同时,它们也让我意识到,我内心最深处的渴望,是健康的身体和他人的关爱,而这也恰恰是医疗行业一直以来的目标 — 提供健康方面的支持和人性化的关爱。
可是,今天的医疗行业,做到了吗?
谈到支持,医疗行业正在飞速发展。从高通量诊断到远程医学,不断涌现的新技术正在帮助我们活得更久,也更有品质。但是,在关爱方面,医疗行业一直缓步不前,医患互动少、医疗质量不够高、医疗服务感受不佳的问题持续存在。这些普遍存在问题和需求也在催生着全球发展新机遇(2019年全球医疗市场规模已达7万亿欧)和医疗行业的转型。随着转型的推进,新的问题也随之而来,让我们来具体看一下。
据统计,到2025年,医疗行业将占据全球数据存储的9%(≈170亿TB的数据)。
的确,医疗行业每天都在产生大量的数据(由内而外的数据,由身体活动到实验室测试,由临床诊断到保险开销)。这些数据为人工智能的创新提供了源源不断的“能源”。可是,这些数据片段式地分散在不同的领域,极大地限制了人工智能的应用和精准医疗的推进。
现今,在领先的数字化国家,电子医疗档案已经在诊所和医院得以应用,医疗数据多保存于中心化的数据系统中。但是,这些很容易被黑的数据库使得医疗消费者受到了巨大的威胁,甚至是变得不堪一击。
在美国,每年的医疗欺诈损失高达1000亿美元。
总的来说,由大数据驱动的医疗转型已全面启动,但是资源足、可信赖的医疗服务尚未成形,其主要原因是缺乏整合数据、开发人工智能产品和安全存储数据的能力。
II. 海洋协议将如何推动医疗转型?
海洋协议带来了全新的解决方案,使得医疗管理和大数据能相辅相成。
- 首先,海洋协议的分布式账本技术,保障了医疗消费者的资料能够安全地存储在许可链上。
- 其次,海洋协议的智能合同方案可以创造以个人为中心的授权网络,医疗消费者能够通过密钥,在其个人网络内控制和跟踪自己的医疗数据。
- 再次,海洋协议的蝠鲼数据科学流程能够整合数据,并实现分散式人工智能的应用。
为了进一步表述我们的理念,并介绍蝠鲼在智能医疗方面的潜力,我们开发了 X-Ray Vision 医疗诊断流程。该流程包含了两个模块:1)医学影像的可视化分析;2)疾病检测。
X-Ray Vision 医学诊断流程
我们在本项目中集中分析的疾病是肺炎。肺炎是一种肺部的传染病,是急诊手术的最大后遗症,也是儿童的头号杀手(每年导致约140万 儿童的丧生)。当前,诊断肺炎的最好方法是做X光胸透。诊断肺炎的主要依据是X光片上的肺部阴影(在X光片上呈白色,见图3左)。
肺炎影像的诊断需要放射科医生的分析和报告。但是,全球的放射科医生数量普遍不足,严重影响了诊断效率。再者,X光片的存储格式是DICOM。DICOM图像的可视化及属性数据的提取通常都需要消耗大量时间,也需要专门的工作站/第三方软件。
模块1:医学影像的可视化分析
为了改进诊断效率并对接数据科学流程,我们用Python和Dash设计了一个互动式的网页App(图4,https://x-ray-vision.herokuapp.com),用于:
- 搜索并查看已发布的医学影像数据
- 医学影像的上传、可视化分析及属性数据的提取(可用于X光片、CT及核磁共振等)
- 敏感数据在本地电脑上的分析(步骤见GitHub)
模块2:疾病检测
接下来,我们构建了一个用于肺炎检测的机器学习模型,它能够读取胸部X光片、分割图像,并输出肺部阴影检测结果。
1) 深度学习的模型
我们使用了迁移学习的方法。机器学习的模型,是基于当前先进的计算机视觉模型 Mask-RCNN(图5)和其应用于CoCo数据集的权重参数。 Mask-RCNN由四大模块组成:前两个模块用于提取图像特征和生成建议窗口(既可能包含识别目标的候选区域),后两个模块再进一步识别建议窗口,并生成定位边框和掩码层(表1)。
2) 机器学习模型的训练和测试
- 配置:亚马逊AWS P3实例(1GPU,16GB内存)的深度学习系统(AMI)
- 数据:X 光片的总样本量为26,684(数据来源于美国NIH 临床中心和 Kaggle RSNA Challenge)
- 实验:在实验1(“小数据+小模型”)中,我们用了一个抽样提取的数据集来训练一个基准模型。在实验2(“大数据+大模型”)中,我们使用了全部的图像来训练MASK-RCNN模型。训练过程和参数总结于表2中。
- 检测: 每幅DICOM图像的检测时间是0.26s。图1左是一幅图像的检测结果,图像中的红色部分包含了目标掩码层、定位边框及目标被判定为肺部阴影的可能性。
- 详细的训练和检测方法请参见Jupyter notebooks。
注册工作流程为资产
为了使X-Ray Vision能在数据市场上得以使用,我们通过蝠鲼用于发布及注册的笔记本(使用GitHub账户登陆datascience.oceanprotocol.com即可见),将此工作流程注册成为资产。总共,我们创建了四种资产:
- 经过了整理的数据集(一个小的样本数据集和一个包含全部样本的数据集),以供数据科学家使用或扩展数据样本
- 机器学习模型的管道脚本(四个Jupyter notebooks),供数据科学家参与并发展项目
- 机器学习模型的权重(包含一个基准模型和一个优化模型),用以减少数据科学家训练模型的时间/GPU消耗,并获得更好的模型表现
- 医学影像可视化分析的网页App,供医生或数据科学家使用。
每个资产都通过一个ID字符串(DID)注册在智能合同中,并以DID文件(既DDO)的形式存储于Aquarius(海洋协议的水瓶座数据库)。资产最后以加密链接的形式发布。资产的来源感知系统能够追踪资产的修改,并记录资产的来源和去向。此历史记录可用于资产的验证和估值。
感谢
- 所有提供影像数据的病人;也感谢分享数据的NIH 临床中心/Kaggle RSNA Challenge
- 提出理念,共同开发此项目,并编辑此文的Marcus Jones
- 提供了有效建议的Chalid Mannaa 和 Don Gossen
- 支持项目开发的海洋协议团队
更多有关海洋协议分散式数据科学的文章
Project Manta Ray — Data Science powered by Ocean ProtocolThe Data Science Workflow — Powered by Ocean Protocol4 Ways We’re Unlocking the Value of Data through PartnershipsExploring the Ocean ProtocolOcean Protocol Technical Whitepaper v2.0
引用
Coco dataset | Mask R-CNN |Splash of Color | DeepMask | DashMask R-CNN for Ship Detection & Segmentation | Deep Medicine