X-Ray Vision — 智慧医疗的应用案例

海洋协议打造

Ju Du

Published in

Ocean Protocol International

9 min readMay 16, 2019

本文介绍的是，海洋协议分散式数据科学打造的智慧医疗的用户案例，旨在讨论海洋协议的数据融合和人工智能技术在工业领域的应用。

本文也是关于“Manta Ray”项目（蝠鲼，fú fèn），既海洋协议数据科学项目的第三篇文章（第一篇：“蝠鲼 — 海洋协议推出的数据科学项目（中文，英文）”，第二篇：“海洋科学出品的数据科学流程（英文）”。

I. 今天的医疗行业：在浪潮中挣扎？

“被忘记，被讨厌，提心吊胆”，这些是我在等待医生诊断结果时的感受。它们会让我觉得，自己好像病得更厉害了，但是同时，它们也让我意识到，我内心最深处的渴望，是健康的身体和他人的关爱，而这也恰恰是医疗行业一直以来的目标 — 提供健康方面的支持和人性化的关爱。

可是，今天的医疗行业，做到了吗？

谈到支持，医疗行业正在飞速发展。从高通量诊断到远程医学，不断涌现的新技术正在帮助我们活得更久，也更有品质。但是，在关爱方面，医疗行业一直缓步不前，医患互动少、医疗质量不够高、医疗服务感受不佳的问题持续存在。这些普遍存在问题和需求也在催生着全球发展新机遇（2019年全球医疗市场规模已达7万亿欧）和医疗行业的转型。随着转型的推进，新的问题也随之而来，让我们来具体看一下。

据统计，到2025年，医疗行业将占据全球数据存储的9%（≈170亿TB的数据）。

的确，医疗行业每天都在产生大量的数据（由内而外的数据，由身体活动到实验室测试，由临床诊断到保险开销）。这些数据为人工智能的创新提供了源源不断的“能源”。可是，这些数据片段式地分散在不同的领域，极大地限制了人工智能的应用和精准医疗的推进。

现今，在领先的数字化国家，电子医疗档案已经在诊所和医院得以应用，医疗数据多保存于中心化的数据系统中。但是，这些很容易被黑的数据库使得医疗消费者受到了巨大的威胁，甚至是变得不堪一击。

在美国，每年的医疗欺诈损失高达1000亿美元。

总的来说，由大数据驱动的医疗转型已全面启动，但是资源足、可信赖的医疗服务尚未成形，其主要原因是缺乏整合数据、开发人工智能产品和安全存储数据的能力。

II. 海洋协议将如何推动医疗转型？

海洋协议带来了全新的解决方案，使得医疗管理和大数据能相辅相成。

首先，海洋协议的分布式账本技术，保障了医疗消费者的资料能够安全地存储在许可链上。
其次，海洋协议的智能合同方案可以创造以个人为中心的授权网络，医疗消费者能够通过密钥，在其个人网络内控制和跟踪自己的医疗数据。
再次，海洋协议的蝠鲼数据科学流程能够整合数据，并实现分散式人工智能的应用。

图2：X-Ray Vision (图片来自Imgur，作者JarJarDrinks)

为了进一步表述我们的理念，并介绍蝠鲼在智能医疗方面的潜力，我们开发了 X-Ray Vision 医疗诊断流程。该流程包含了两个模块：1）医学影像的可视化分析；2）疾病检测。

X-Ray Vision 医学诊断流程

我们在本项目中集中分析的疾病是肺炎。肺炎是一种肺部的传染病，是急诊手术的最大后遗症，也是儿童的头号杀手（每年导致约140万儿童的丧生）。当前，诊断肺炎的最好方法是做X光胸透。诊断肺炎的主要依据是X光片上的肺部阴影（在X光片上呈白色，见图3左）。

肺炎影像的诊断需要放射科医生的分析和报告。但是，全球的放射科医生数量普遍不足，严重影响了诊断效率。再者，X光片的存储格式是DICOM。DICOM图像的可视化及属性数据的提取通常都需要消耗大量时间，也需要专门的工作站/第三方软件。

模块1：医学影像的可视化分析

为了改进诊断效率并对接数据科学流程，我们用Python和Dash设计了一个互动式的网页App（图4，https://x-ray-vision.herokuapp.com），用于：

搜索并查看已发布的医学影像数据
医学影像的上传、可视化分析及属性数据的提取（可用于X光片、CT及核磁共振等）
敏感数据在本地电脑上的分析（步骤见GitHub）

模块2：疾病检测

接下来，我们构建了一个用于肺炎检测的机器学习模型，它能够读取胸部X光片、分割图像，并输出肺部阴影检测结果。

1) 深度学习的模型

我们使用了迁移学习的方法。机器学习的模型，是基于当前先进的计算机视觉模型 Mask-RCNN（图5）和其应用于CoCo数据集的权重参数。 Mask-RCNN由四大模块组成：前两个模块用于提取图像特征和生成建议窗口（既可能包含识别目标的候选区域），后两个模块再进一步识别建议窗口，并生成定位边框和掩码层（表1）。

2) 机器学习模型的训练和测试

配置：亚马逊AWS P3实例（1GPU，16GB内存）的深度学习系统（AMI）
数据：X 光片的总样本量为26,684（数据来源于美国NIH 临床中心和 Kaggle RSNA Challenge）
实验：在实验1（“小数据+小模型”）中，我们用了一个抽样提取的数据集来训练一个基准模型。在实验2（“大数据+大模型”）中，我们使用了全部的图像来训练MASK-RCNN模型。训练过程和参数总结于表2中。

检测: 每幅DICOM图像的检测时间是0.26s。图1左是一幅图像的检测结果，图像中的红色部分包含了目标掩码层、定位边框及目标被判定为肺部阴影的可能性。
详细的训练和检测方法请参见Jupyter notebooks。

注册工作流程为资产

为了使X-Ray Vision能在数据市场上得以使用，我们通过蝠鲼用于发布及注册的笔记本(使用GitHub账户登陆datascience.oceanprotocol.com即可见)，将此工作流程注册成为资产。总共，我们创建了四种资产：

经过了整理的数据集（一个小的样本数据集和一个包含全部样本的数据集），以供数据科学家使用或扩展数据样本
机器学习模型的管道脚本（四个Jupyter notebooks），供数据科学家参与并发展项目
机器学习模型的权重（包含一个基准模型和一个优化模型），用以减少数据科学家训练模型的时间/GPU消耗，并获得更好的模型表现
医学影像可视化分析的网页App，供医生或数据科学家使用。

每个资产都通过一个ID字符串(DID)注册在智能合同中，并以DID文件（既DDO）的形式存储于Aquarius（海洋协议的水瓶座数据库）。资产最后以加密链接的形式发布。资产的来源感知系统能够追踪资产的修改，并记录资产的来源和去向。此历史记录可用于资产的验证和估值。

III. 重视产业需要，解决客户问题

总而言之，X-Ray Vision工作流程有潜力、也有能力将数据的控制权给予数据的提供者，并能够加速人工智能服务，增强医生绩效，促进医疗行业转型成为一个智能、安全、充满人性化关爱的生态系统。

在其他工业领域，海洋协议的分散式数据科学方案又将如何促进专业领域和人工智能的汇集及应用呢？欢迎你来Twitter, Telegram, LinkedIn, Reddit, or Gitter ，和我们一起讨论你的想法和疑惑。

感谢

所有提供影像数据的病人；也感谢分享数据的NIH 临床中心/Kaggle RSNA Challenge
提出理念，共同开发此项目，并编辑此文的Marcus Jones
提供了有效建议的Chalid Mannaa 和 Don Gossen
支持项目开发的海洋协议团队

引用

Coco dataset | Mask R-CNN |Splash of Color | DeepMask | DashMask R-CNN for Ship Detection & Segmentation | Deep Medicine

想了解更多？现在就访问Dev-Ocean来看看我们在做什么，并登陆Gitter聊天室开始向我们提问吧。

你还可以通过 Twitter, Telegram, LinkedIn, Reddit, GitHub和订阅 Newsletter来关注海洋协议，了解项目进展，获得一手资讯。