Weglachen, bestrijden, omarmen: hoe de radiologie om zal gaan met kunstmatige intelligentie

Dit is een artikel verschenen in een themanummer van MemoRad over kunstmatige intelligentie in de radiologie. Her en der verwijs ik naar andere artikelen in dit blad. Het blad is hier te vinden.

Elke waarheid doorloopt drie stadia. Eerst wordt ze uitgelachen. Daarna wordt ze heftig bestreden. Tenslotte wordt ze als vanzelfsprekend aanvaard.” Deze wijze woorden van de Duitse filosoof Arthur Schopenhauer vormden de basis voor mijn oratie, in september 2012, waarin ik de toehoorders, met name mijn medische collega’s waarmee ik samenwerk, probeerde voor te bereiden op wat ze te wachten stond: Computers gaan het werk overnemen van artsen die de hele dag naar plaatjes kijken en zeggen wat ze daarop zien.

Die uitspraak is controversieel, of was dat in ieder geval vijf jaar geleden, in 2012. En dat zijn uitspraken dat iets wat breed ingeburgerd is volledig gaat veranderen, altijd. Dat is precies wat Schopenhauer zo goed in de gaten had.

De eerste fase, weglachen, heb ik meegemaakt als promovendus. In 1997 begon ik, net afgestudeerd natuurkundige met een voorliefde voor programmeren, met mijn promotie aan het UMC Utrecht bij Bart ter Haar Romeny, elders in dit blad aan het woord. Ik mocht vier jaar lang een computerprogramma schrijven dat van een digitale thoraxfoto zegt of de persoon op de foto tuberculose heeft. Als ik artsen destijds vertelde waar mijn onderzoek over ging, begonnen ze meestal te grinniken. “O jee, jouw computer gaat toch niet mijn baan overnemen he?” Wat een idioot idee, wat denkt die rare jongen wel? Elders in dit tijdschrift kunt u lezen hoe CAD4TB, verder ontwikkeld in mijn onderzoeksgroep aan het Radboud UMC, inmiddels een product is geworden dat nu in twintig landen wordt gebruikt.

Zo’n oratie schrijven valt niet mee. Het moet voor een breed publiek begrijpelijk zijn. Hoe moest ik mijn publiek vertellen dat iets wat ze waarschijnlijk nog idioot vinden, en daarna heftig zullen bestrijden, vanzelfsprekend zal worden? Ik moest een goed voorbeeld uit het verleden vinden, bedacht ik.

Ik stuitte op het prachtige essay ‘From Horse Power to Horsepower’ van Eric Morris. Hij beschrijft daarin de eerste conferentie voor stadsplanning in 1898 in New York, waar experts uit de hele wereld zich dagenlang bogen over het probleem van de paardenpoep. In elke grote stad namen tienduizenden paarden het vervoer voor hun rekening, en elk paard produceert per dag zo’n twintig kilo uitwerpselen. Wat een smerigheid en ziekten dat veroorzaakte is haast niet voorstelbaar. En het aantal paarden nam exponentieel toe. De Times had uitgerekend dat binnen 50 jaar de straten van London door drie meter poep bedekt zouden zijn. Een gigantisch probleem! Dat nooit een probleem werd, omdat auto’s paarden binnen twintig jaar bijna volledig vervingen.

En het mooie was dat die auto’s al lang bestonden in 1898. Maar niemand nam ze serieus als alternatief voor paarden. Auto’s waren rare, krakkemikkige dingen, die steeds vastliepen. Het idee dat auto’s de oplossing voor het vervoer in een stad zouden zijn en een serieus alternatief vormden voor het alomtegenwoordige paard, dat was iets waar je hooguit vrolijk om kon lachen. Zoals grootmeesters in de jaren zeventig en tachtig konden schuddebuiken over het geklungel van schaakcomputers. Ik haalde ook nog het beroemde boek van Levy en Murnane uit 2005 aan, The New Division of Labor, waarin ze de gevolgen van automatisering voor de arbeidsmarkt beschreven. Die waren enorm, maar de auteurs waren ook heel stellig waren dat een heleboel taken absoluut niet door computers konden worden overgenomen. Hun voorbeeld: autorijden.

We weten allemaal wat er gebeurd is. Vijf jaar later presenteerde Google zijn zelfrijdende auto. Anno 2017 is er geen serieuze autofabrikant die niet bezig is zelfrijdende auto’s te ontwikkelen. Ze zullen bestreden worden, want er is wetgeving die veranderd moet worden en er zijn gevestigde belangen en er zullen vreselijke ongelukken komen, want het duurt nog een tijd voor die automatische auto’s echt goed zijn. Zodra dat het geval is worden ze vanzelfsprekend.

In de rest van mijn oratie presenteerde ik een hele reeks voorbeelden van computerprogramma’s die al taken op het niveau van artsen beheersen. De BoneXpert van Hans Henrik Thodberg om de skeletleeftijd te bepalen; het mammografiewerk van mijn collega Nico Karssemeijer; onze systemen om diabetische retinopathie en maculadegeneratie te detecteren in fundusfoto’s, nu op de markt gebracht door Thirona, een spin-off waar ik mede-oprichter van ben.

Hoe optimistisch ik toen ook al was, wat ik niet kon vermoeden is dat de ontwikkelingen nog veel sneller zouden gaan. Dat kwam door een doorbraak een paar maanden na mijn oratie, in december 2012. Op de NIPS conferentie presenteerde Alex Krizhevsky een diep neuraal netwerk, al snel AlexNet genoemd, dat het record verpletterde in de ImageNet competitie, een jaarlijkse wedstrijd voor computerprogramma’s in het herkennen van duizend verschillende objecten in willekeurige foto’s.

Deep learning was al succesvol gebleken in spraakherkenning, maar dit was het begin van een complete omslag in de computer vision. Elke serieuze groep in de wereld kwam er geleidelijk erachter dat grote, diepe convolutienetwerken aanmerkelijk beter werken dan alle andere bestaande methoden om plaatjes te analyseren. In mijn groep begonnen we er eind 2013 mee te experimenteren, en inmiddels is iedereen erop overgeschakeld. Wij zijn niet de enigen die ontdekt hebben dat wat werkt voor plaatjes van katten op het internet, het ook uitstekend doet voor X-rays, CT en MRI scans. In een net gepubliceerd overzichtsverhaal beschrijven we 300 artikelen die deep learning toepassen op medische beelden. De komende vijf jaar leid ik een consortium van vijf Nederlandse academische groepen en zeven bedrijven die met een subsidie van vele miljoenen deep learning systemen gaat bouwen voor digitale pathologiebeelden, retinafoto’s, en allerlei radiologische scans. Het een na het andere artikel verschijnt nu over computersystemen die voor een bepaalde taak opereren op het niveau van de medische professional — radioloog, patholoog, oogarts, dermatoloog en ga zo maar door.

Dat is waar we nu staan. Kunstmatige intelligentie is op dit moment een hype. Daar hoort bij dat er bedrijven actief zijn, die geld nodig hebben, en daarom overtrokken en onzinnige claims maken. Wie een goed gevoel wil krijgen voor wat AI nu wel en niet kan, raad ik een kort artikel aan van Andrew Ng, een van de grootmeesters in dit gebied. Het komt erop neer dat elke taak met een duidelijk gedefinieerde input en output die mensen in 1 of 2 seconden kunnen doen, net zo goed (of beter) door een computer gedaan kan worden. Ng noemt dit “A to B” taken. Een voorbeeld voor de radioloog: A is een thoraxfoto, B is het antwoord op de vraag “is er een nodule zichtbaar?”. Zaken waar je langer over na moet denken, en die niet een vaste input naar een vaste output mappen maar echt redeneren en doorgronden vereisen, zijn veel moeilijker voor computers. Dat wordt “sterke kunstmatige intelligentie” genoemd en hier doen vele academische groepen en bedrijven als Google DeepMind en OpenAI fascinerend werk, maar dat staat nog in de kinderschoenen. Tim Salimans schrijft daarover elders in dit blad.

Mijn stelling is dat het overgrote deel van het werk van de radioloog bestaat uit “A to B” taken. (Natuurlijk zijn er uitzonderingen, de interventieradiologen hoeven zich nog niet druk te maken.) Al die “A to B” taken kunnen door computers worden overgenomen. Maar dan moet daar wel eerst een computersysteem voor ontwikkeld worden. En dat is anno 2017 weliswaar mogelijk, en dankzij deep learning en de beschikbaarheid van allerlei open source deep learning software een stuk eenvoudiger dan vijf jaar geleden, maar het vereist wel de nodige technische competentie, en het is een heleboel werk al was het maar om een hele grote goed gelabelde trainingsdata set te verzamelen. Niet iedereen is technisch even competent, en niet iedereen neemt of heeft de tijd om goede trainingsdata te verzamelen. Daarom verschijnen er ook allerlei zeer matige softwarepakketten op de markt. Dat is iets waar de moderne radioloog, die de AI revolutie wil omarmen in plaats van bestrijden, zich heel goed van bewust moet zijn. Radiologen zouden veel meer het heft in eigen hand moeten nemen en de beschikbare software zelf gedegen moeten testen. Mocht die test slecht uitvallen voor de software, dan betekent dat niet dat “deze taak nog niet door de computer kan worden overgenomen en inbreng van de radioloog nodig blijft”. Dit soort uitspraken kom ik voortdurend tegen in de literatuur. Die uitspraak is fout, het betekent alleen dat het hier geteste computersysteem niet goed genoeg is, maar dat sluit allerminst uit dat er een veel en veel beter computersysteem gebouwd kan worden.

Ook al ben ik ervan overtuigd dat zeer goede “A to B” systemen gebouwd kunnen worden, dat betekent nog niet dat dat ook gebeurt, en dat dit soort systemen snel breed beschikbaar zullen komen voor de radioloog. Er zijn allerlei praktische, technische en ethische hindernissen te noemen, maar uiteindelijk is de voornaamste factor hier, zoals zo vaak, geld. De technologie is er klaar voor, en bedrijven zullen daarom prachtige AI producten voor de radiologie ontwikkelen, als er maar geld mee verdiend kan worden. Als de kosten de baten overstijgen, dan gebeurt het niet. En als ze meer geld kunnen verdienen met slechte producten, dan doen ze dat.

De computer-aided diagnose (CAD) software voor de mammografie is een mooi voorbeeld. Vele radiologen kennen die software, die al sinds eind jaren negentig op de markt is. Weinigen zijn onder de indruk. In 2001 kwam er in de Verenigde Staten een vergoeding van de verzekeraars voor het gebruik van deze software als ‘second reader’. Een vast bedrag per mammogram. Uiteraard alleen voor softwareproducten die getest en goed bevonden waren door de FDA. Goed betekent hier dat de software als second reader de radioloog (de first reader) in een observerstudie beter maakt, al is het maar een heel klein beetje. Maar echt goed werkte die software allerminst, en dat is niet verbazingwekkend. De eerste generatie van een nieuw soort product is meestal niet heel goed (denk weer aan de krakkemikkige auto’s uit 1898). Dus je zou verwachten dat er met man en macht gewerkt werd om die software te verbeteren en op het niveau te brengen van een goede mammascreeningsradioloog. Het tegenovergestelde gebeurde. De bedrijven, die met hun CAD goed verdienden aan de vergoeding van de verzekeraars, ontmantelden hun onderzoeksafdeling, en breidden hun sales en marketing uit. De Amerikaanse screeningscentra kochten allemaal CAD, want elke druk op de knop brengt geld van de verzekeraars in het laatje. Er was geen enkele reden voor de bedrijven hun software te verbeteren: de vergoeding van de verzekeraars was een vast bedrag en hing niet af van de prestaties van de software (dat geldt anno 2017 nog steeds!). Een nieuwe versie van de software zou weer uitgebreid door de FDA getest moeten worden, met een schreeuwend dure observerstudie die het bedrijf zelf moet betalen. Dit soort perverse financiële prikkels vind je helaas op heel veel plaatsen in onze gezondheidszorg. Uiteindelijk zal veel betere, op deep learning gebaseerde, software voor analyse van mammogrammen wel op de markt komen. Mijn collega Nico Karssemeijer, die ScreenPoint heeft opgericht en daar ook in dit nummer over schrijft, is er druk mee bezig.

In een ander artikel in dit blad spreken Jan Jaap Visser en Stefan Klein over “value-based health care” en halen ze de managementgoeroe Michael Porter aan die stelt dat een innovatie toegevoegde waarde heeft als de kwaliteit van de zorg omhoog gaat of de kosten omlaaggaan. Ze schetsen voor AI vooral mogelijkheden om de kwaliteit te verhogen. Over de mogelijkheid om de kosten te verlagen zijn ze minder optimistisch: “Mogelijk [kan er] tijd worden bespaard door de radioloog. Of dit daadwerkelijk het geval is zal in de praktijk moeten blijken. Het beschikbaar krijgen van meer informatie zal met zich meebrengen dat de radioloog extra tijd nodig heeft voor het maken van het verslag.” Ik kijk daar anders tegenaan. Mijn groep heeft de afgelopen jaren software gemaakt die helemaal automatisch een Lung-RADS rapport produceert bij een thorax CT scan van een deelnemer aan longkankerscreening. Die software is geïntegreerd in een speciaal werkstation voor radiologen om efficiënt screeningsstudies te lezen. We hebben al laten zien dat dit de leestijd kan halveren zonder dat de kwaliteit van de beoordeling achteruitgaat. Dat de kosten lager zijn als de software geheel automatisch werkt is helemaal evident. Kan dat echt? Is dat goed genoeg? We zitten er dichtbij, en we zijn niet de enigen.

Dit jaar heb ik geholpen met de organisatie van een Kaggle competitie waarbij de computer op basis van een screening thorax CT moest voorspellen of binnen 1 jaar met longkanker gediagnostiseerd zou worden. De prijzenpot van 1 miljoen dollar, gedoneerd door een hedgefonds miljardair die nu filantroop is, trok een grote groep deelnemers. Maar liefst 1972 teams stuurden een inzending in. Al leek het resultaat van het overgrote deel van de systemen nergens op, de prijswinnaars, de 10 beste systemen, werken verbluffend goed. Ik nam de scores van de tien beste systemen voor de 500 test scans en maakte er ROC curves van. Dat gaf scores tussen de 0.849 en 0.883. Daarna heb ik zelf alle scans gelezen, en van alle nodules in de scan de score berekend met het PanCan model. De score van de ROC curve die ik zo kreeg was lager, 0.824. Nu ben ik geen radioloog, misschien lag het daar aan. Intussen heeft een ervaren thoraxradioloog alle 500 cases gelezen en gescoord. Hij scoorde 0.849, net zo goed als de nummer 10 van de computers. We zijn bezig meer radiologen deze scans te laten scoren. Wie mee wil doen en zich wil meten met de computer kan zich bij mij melden, mijn e-mail staat onder dit verhaal. Het is niet nodig alle 500 scans te lezen en je kan het doen in een web-omgeving die er uitziet als een PACS-station. Het is leuk te vermelden dat de twee beste computersystemen uit Nederland kwamen, van Julian de Wit, een freelance software ingenieur uit Hoek van Holland, en van Aidence, een Amsterdamse start-up die elders in dit blad haar verhaal doet.

Het idee dat computers zonder tussenkomst van radiologen CT scans beoordelen, ook al is het alleen in de beperkte setting van longkankerscreening, is in de Verenigde Staten op dit moment zondermeer een brug te ver. Dat wordt heftig bestreden door radiologen. Maar tegelijkertijd wordt het ook al omarmd. Ik heb een longarts gesproken die een longkankerscreeningscentrum aan het opzetten was. Hij was zeer onder de indruk van onze software en vroeg me met glimmende ogen: “Als ik dit koop, kan ik mijn centrum dan opzetten zonder dat ik een radioloog nodig heb?” Scheelt een hoop in de kosten! Het antwoord is op dit moment overigens negatief, niet omdat onze software niet goed genoeg is, maar omdat je in de Verenigde Staten dan niet voor een vergoeding van de verzekeraars in aanmerking komt; een Lung-RADS beoordeling door een gecertificeerde radioloog is een vereiste.

De komende jaren zullen we zien hoe radiologen kunstmatige intelligentie zullen bestrijden en omarmen. Omarmen, omdat weinigen een probleem zullen hebben met een handig knopje in hun PACS-station dat het saaie zoekwerk naar kleine afwijkingen overneemt en het opmeten en nalopen van lesies automatisch doet. Bestrijden, omdat ze zich zullen realiseren dat sommige stukken van hun werk, waar ze nu goed aan verdienen, echt gaan verdwijnen. Veranderingen doen altijd ergens pijn. En terecht bestrijden, omdat er producten op de markt komen die niet goed genoeg werken en hun claims niet waarmaken. Ik ben er ook van overtuigd dat heel veel radiologen kansen zien en data scientists zullen helpen om goede automatische systemen te bouwen. Wij kunnen die hulp goed gebruiken; mijn groep had nooit kunnen bereiken wat we al hebben bereikt zonder de voortdurende kritische input van een heleboel radiologen. Daar komt bij dat er letterlijk duizenden “A to B” taken zijn die de radioloog in zijn dagelijks werk vervult. Er is dus gigantisch veel werk te doen.

Prof.dr. Bram van Ginneken
Diagnostic Image Analysis Group, Afdeling Radiologie en Nucleaire Geneeskunde, Radboud UMC
bram.vanginneken@radboudumc.nl