Paard, radioloog, tractor, computer


Dit is de tekst van mijn inaugurele rede, uitgesproken op 12 september 2012, bij het aanvaarden van mijn hoogleraarschap aan het Radboud Universitair Medisch Centrum. Kijken in plaats van lezen kan ook.

CRISIS

Het is crisis. Wij worden vermorzeld door de grijze druk. De grijze druk is de griezelige term die het Centraal Bureau voor de Statistiek gebruikt voor de verhouding tussen het aantal 65-plussers en de omvang van de beroepsbevolking1. De grijze druk was zo’n 15 procent in 1950, is nu 25 procent en het begint al pijn te doen, en neemt razendsnel toe: tot 50 procent rond 2040. Dat betekent dat er nu voor elke oudere nog vier mensen zijn die kunnen werken, maar over dertig jaar nog maar twee! Binnen die groep van ouderen stijgt het aandeel van de 80-plussers nog sneller. En voor een 80-plusser is gezondheidszorg tien tot twintig keer zo duur als voor een gemiddelde werkende. Daarom wordt een explosie van de kosten van de zorg verwacht. Wie gaat dat betalen? Hoe voorkomen we dat radiologen, die nu al vinden dat ze het erg druk hebben, het nog veel drukker gaan krijgen? Hoe gaan we deze crisis oplossen?

Vaak helpt het in zo’n geval om afstand te nemen en de situatie in een bredere context te bekijken. Dat is wat ik in het eerste deel van deze openbare les wil doen. Ik ga wat vertellen over paarden, tractoren en computers.

We gaan kijken, zoals ik dat geleerd heb van mijn leermeester Bart ter Haar Romeny, op een hogere schaal. Laten we de hele geschiedenis van de mensheid beschouwen. Die begon zo’n 200.000 jaar geleden, toen apen op de Afrikaanse savanne besloten rechtop te gaan lopen en te gaan jagen en verzamelen. Die apen kregen enorme hersenen, die maar liefst 25 Watt verbruiken, een kwart van hun totale energiebehoefte, een veel hoger percentage dan andere dieren.

Zo’n 8000 jaar geleden hadden deze apen, inmiddels mensen, zich over de hele wereld verspreid en vond er een eerste enorme overgang plaats. Er komen in mijn overzichtelijke verhaal drie overgangen aan de orde. De derde zal ook de laatste zijn van de mensheid.

Overgang 1 veranderde de manier van leven van mensen. Het bleek het veel efficiënter om op een vaste plek te leven, en landbouw te bedrijven. Paarden en andere dieren te domesticeren. Voor landbouw en handel was het handig om te kunnen rekenen en schrijven. Een veel complexere samenleving ontstond, met allerlei gespecialiseerde beroepen, zoals dokters en zelfs wetenschappers.

Je ziet het effect van deze overgang duidelijk aan de omvang van de wereldbevolking (Figuur 1). Die is tot zo’n 5000 voor Christus vrij constant, en gaat dan, dus na overgang 1, ineens toenemen, en groeit in een min of meer constant exponentieel tempo van een paar miljoen tot een miljard aan het begin van de negentiende eeuw. In die negentiende eeuw vindt de tweede overgang plaats. De grafiek maakt weer een knik. De wereldbevolking groeit in de twintigste eeuw van twee naar zeven miljard! Er is iets enorms gebeurd, waardoor dat mogelijk werd.

Figuur 1. De omvang van de wereldbevolking. Bron: Wikipedia.

Het grappige is dat de mensen honderd jaar geleden dat niet in de gaten hadden. Dat is misschien ook niet zo raar, want een enorme overgang, is enorm door zijn lange termijn effect, niet omdat de hij van de ene op de andere dag plaatsvindt. Dus mensen die midden in die overgang zaten, die beseften dat niet. Net zoals wij nu niet beseffen dat we middenin overgang 3 zitten, die nog veel verstrekkender zal zijn dan overgang 2. Wij maken ons zorgen over zaken als de kosten van gezondheidszorg en de eurocrisis. Serieuze problemen, daar niet van, maar we zien de grote lijn niet. Om dat te illustreren wil ik u meenemen naar ruim honderd jaar geleden, middenin die vorige overgang. Ook toen was het crisis. Waar ging die over? Nou, niet over radiologie, die was pas net uitgevonden. Nee, de crisis waar ik u over wil vertellen, ging over paarden, en over poep.

MACHINES MET PAARDEKRACHT

In 1900 waren paarden overal aanwezig in de steden. London, toen de grootste stad ter wereld, had meer dan tienduizend taxi’s, die allemaal door paarden werden getrokken. Er reden duizenden bussen rond, elk getrokken door twaalf paarden. Dan waren er nog vele duizenden paarden en wagens die goederen vervoerden. Figuur 2 is een foto van uit Amsterdam uit die tijd.

Figuur 2. Het Koninklijk Paleis op de Dam in Amsterdam tussen 1890 en 1900 met de paardentram op de voorgrond. Bron: Library of Congress.

Het ziet er wel gezellig uit. Maar schijn bedriegt. Elk paard produceert per dag zo’n tien tot twintig kilo poep, dus de straten van alle steden ter wereld waren open riolen, vol paardenpoep, de favoriete plek voor vliegen om hun eieren in te leggen. Vliegen verspreiden ziekten, diarree was toen de derde doodsoorzaak. Stelt u zich voor wat er gebeurde als het regende, met die halve miljoen kilo poep per dag in London, samen met tweehonderdduizend liter paardenurine, onaangenaam, glibberig. Het aantal paarden groeide veel sneller dan het aantal mensen in die steden. De gemeentelijke reinigingsdiensten konden het niet bijbenen. The Times schatte dat als het zo door zou gaan, de straten van London binnen vijftig jaar bedekt zouden zijn met drie meter paardenpoep.

Eric Morris heeft dit in een prachtig artikel beschreven. Hij vertelt hoe in 1898 experts uit de hele wereld bijeen kwamen in New York voor de eerste internationale conferentie voor stadsplanning. Het paardenpoepprobleem stond bovenaan de agenda. De conferentie zou tien dagen duren, maar werd na drie dagen al afgebroken. Waarom? De aanwezigen zagen geen enkele oplossing voor de crisis.

Hoe kan dat nou? Het probleem is natuurlijk opgelost doordat de auto het paard heeft vervangen in de stad, net als het paard in de landbouw is vervangen door de veel efficiëntere tractor. Dat komt door de tweede overgang in de geschiedenis van de mensheid, ons vermogen om de energie van de zon op grote schaal te benutten, de energie die in de loop van miljoenen jaren als fossiele brandstof in de grond is opgeslagen. Maar dat was ten tijde van die conferentie allang bekend! Er werden in 1900 al meer dan vierduizend auto’s verkocht in de Verenigde Staten, en er waren al lang spoorwegen. Nu wordt het interessant. De opkomst van de spoorwegen werd juist gezien als een oorzaak van het paardenpoepprobleem. Zeker, voor vervoer over de lange afstand waren treinen ideaal, maar bij aankomst moesten al die goederen toch weer door paarden vervoerd worden.

De parallel met onze crisis in de gezondheidszorg is treffend.

Neem de radiologie. Radiologen moeten per studie steeds meer beelden beoordelen. Voor een onderzoek van de longen nam je vroeger zelden meer dan een Röntgenfoto. Twee opnamen, een frontaal, een van opzij. Toen kwam er CT, computertomografie, en een thoraxstudie bevatte in de jaren negentig ineens dertig beelden van plakken van steeds 1 centimeter dik. CT technologie is enorm verbeterd. Tegenwoordig maken we plakjes van minder dan 1 mm dik. Om die goed te kunnen beoordelen is het verstandig ze in meerdere richtingen en met meerdere instellingen te bekijken. Dat betekent duizenden plaatjes langslopen! En de efficiëntie van de detectoren in de CT scanners en de computers en algoritmen die die driedimensionale beelden berekenen uit de ruwe data, zijn de afgelopen tien jaar zo ver verbeterd dat we in plaats van zo’n ouderwetse Röntgenfoto voor vrijwel dezelfde stralingsdosis best altijd een CT scan zouden kunnen maken. Denkt u dat de radiologen dat graag willen, elke ochtend in plaats van vlot vijftig thoraxfoto’s wegkijken (ze noemen ze dat wegkijken, de werklijst leegmaken, maar ze kijken wel op de foto hoor) vijftig CT onderzoeken bekijken (elk duizenden plaatjes)? Alstublieft niet, denken de radiologen. Door die nieuwe technologie moeten wij al steeds harder werken: er zijn veel meer radiologen nodig.

Neem de kosten van de gezondheidszorg. In de rapporten van het Ministerie van Volksgezondheid gaat het over de levensverwachting, die enorm is gestegen dankzij de introductie van nieuwe medische technologie. Dus eigenlijk … heeft de technologie het probleem veroorzaakt. Daardoor ontstaat de grijze druk en stijgen de kosten. “Innovaties leiden altijd tot meer kosten, nooit tot minder.” Zo klaagt de voorzitter van het College van Zorgverzekeringen in NRC Handelsblad van 8 augustus 2012. De vraag naar arbeid in de gezondheidszorg zal enorm groeien, denkt onze regering.

Ik denk dat het heel anders zal gaan. Ik denk dat heel veel ijverige werkpaarden in de ziekenhuizen, in de ouderenzorg, gaan verdwijnen. Net als die paarden uit het stadsbeeld van honderd jaar geleden.

Ik besef dat niet iedereen die analyse deelt. De lijsttrekkers van onze politieke partijen, ik hoor ze hier niet over. De stadsplanners van honderd jaar geleden, zij zagen de opkomst van de auto volledig over het hoofd. Toen ik zestien jaar geleden begon aan mijn promotie-onderzoek over het programmeren van een computer om tuberculose te vinden in een thoraxfoto kreeg ik vaak een beetje lacherige reacties van radiologen: “Oh, jouw computer gaat toch zeker niet mijn baan overnemen, hè?” Een radioloog begon altijd een mop te vertellen over een computer die voor dokter speelde. Het was een beetje een smerige mop dus die kan ik in deze plechtige rede beter niet vertellen. Het lijkt me dat ik veel geleerder overkom als ik een uitspraak van een beroemde Duitse filosoof citeer. Daarom de volgende constatering van Schopenhauer die goed van toepassing is op de lacherige reacties die ik met name vroeger vaak kreeg over mijn werk: “Elke waarheid doorloopt drie stadia. Eerst wordt ze belachelijk gemaakt. Dan wordt ze hevig bestreden. Tenslotte wordt ze als vanzelfsprekend aangenomen.”

MACHINES MET BREINKRACHT

De waarheid waar ik in geloof is dat we na de tweede belangrijke overgang, waarin de mensheid dankzij grootschalig gebruik van fossiele brandstoffen enorme technologische vooruitgang heeft geboekt, nu middenin een derde, nog belangrijker overgang zitten. Ik doe twee uitspraken. Ten eerste, we zijn binnenkort in staat machines te bouwen die onszelf in intelligentie voorbijstreven. Ja binnenkort, binnenkort, wanneer is dan binnenkort? Waar ik u in de rest van deze les van wil overtuigen is dat voor een heleboel terreinen binnenkort al verleden tijd is. Ten tweede, de gevolgen van deze overgang zijn onvoorstelbaar. Dat behoeft eigenlijk geen onderbouwing. Het vervangen van paarden door machines is minder ingrijpend dan het vervangen van mensen door machines.

Figuur 3. Links de historische ontwikkeling van het aantal berekeningen dat een computer van $1000 per seconde kan maken (bron), en rechts iets soortgelijks, het aantal berekeningen dat een computer uit kan voeren voor 1 kilowattuur aan energie (bron). In beide gevallen is de verticale as logaritmisch.

In Figuur 3, links, ziet u de ontwikkeling van de rekenkracht van computers uitgezet. Verticaal staat het aantal berekeningen dat een computer van 1000 dollar per seconde kan maken. Net als bij de grafiek van de wereldbevolking, die ik u daarstraks liet zien, is ook hier de schaal van de verticale as logaritmisch. Aangezien de datapunten min of meer op een rechte lijn liggen betekent dit dat in een bepaalde tijdspanne, de rekenkracht steeds verdubbelt. Die tijdspanne is ongeveer anderhalf jaar en dit spectaculaire gegeven staat bekend als de Wet van Moore. De plaatjes boven de grafiek laten zien dat we een aantal keer zijn overgestapt op een andere technologie om die verdubbeling vol te houden. Vacuumbuizen zijn vervangen door transistoren, en transistoren door geintegreerde schakelingen, ofwel, chips. De miniaturisatie van chips heeft een ongelooflijke ontwikkeling doorgemaakt. In 1970 pastte er 2,300 transistoren op een chip, zoveel als er mensen in een grote concertzaal passen. In 1983 waren het er 134,000, dat is elf keer de capaciteit van het voetbalstadion van NEC. In 2000 zaten er al evenveel transistoren op een chip als er mensen wonen in Tokio. En in de Core i7, die vorig jaar op de markt kwam, zitten net zoveel transistoren als er Chinezen op deze wereld zijn.

Die transistoren zijn de rekeneenheden van een chip, te vergelijken met onze hersencellen. Daarvan hebben we er in ons apenbrein zo’n 100 miljard, en zoveel Chinezen zullen er hopelijk nooit komen. Elke hersencel is verbonden met gemiddeld duizend andere cellen. Langs die verbindingen lopen signalen die vergelijkbaar zijn met 1 berekening. Je kan de rekenkracht van een menselijk brein op allerlei manieren proberen te schatten en de meeste schattingen komen uit op zo’n 10 tot de 16de, tien biljard, berekeningen per seconde. Als de toename van de rekenkracht van computers stand houdt zal 1 computer rond 2030 net zo krachtig zijn als 1 menselijk brein. En de rekenkracht van de computerbreinen verdubbelt elke paar jaar, en die van mensen, euh, niet. Dus tien jaar later is een computer dan zo krachtig als duizend stel hersens! We zouden de kracht van computers moeten uitdrukken in mensenbreinen, net zoals James Watt, in een geniale marketingzet, het vermogen van zijn stoommachines uitdrukte in paardenkrachten.

Chips worden ook steeds zuiniger. De grafiek in Figuur 3, rechts, laat het aantal berekeningen van een chip zien per kilowattuur energie. Ook hier weer een enorme exponentiele verbetering. En ook hier geldt dat als deze trend doorzet, rond 2030 een chip die 25 watt verbruikt, evenveel als uw hoofd, evenveel berekeningen per seconde maakt als uw hersenen. Om een idee te geven, stel dat je de processor van een Macbook Air zou vervangen door chips uit 1991 die bij elkaar evenveel rekenkracht hebben, dan zou de batterij in 2,5 seconde leeg zijn.

Mijn eerste computer die ik in 1989 van mijn vader kreeg had een harde schijf van 10 Megabyte! Op de schijven die wij nu in de computers van mijn groep schroeven past tweehonderdduizend keer meer data. Kent u veel gebieden waar produkten in twintig jaar tijd tweehonderdduizend keer beter worden? Misschien roept u dat dat allemaal leuk en aardig is maar dat het nog maar de vraag is of dit door kan gaan. Laten we voor de lol eens wat uitrekenen. Die harde schijven wegen 600 gram, dus dat is ruim 3 GB per gram. Voor een verbetering van nog eens een factor tweehonderdduizend zou je dus bijna 700 TB in 1 gram op moeten slaan. Toevallig publiceerden onderzoekers van Harvard drie weken geleden in Science dat ze er in zijn geslaagd informatie op te slaan in zelfgemaakte stukjes DNA en die ook weer uit te lezen. In 1 gram van hun DNA zit 700 TB aan informatie.

Maar dat ging allemaal over hardware. Kunnen die snelle rekenwonders ook echt iets intelligents doen?

In 2004 sprak ik met een radioloog over de spraakherkenningsoftware waar de afdeling Radiologie in het UMC Utrecht toen net mee werkte. Waardeloos, was zijn conclusie. De oude situatie, waarbij hij zijn rapport insprak in een dictafoon, zo’n ding met een klein cassettebandje, dat werkte veel sneller. Dit is een typische klacht van een gebruiker van een eerste generatie product. Vaak bevat zo’n product kinderziekten omdat de fabrikant het zo snel mogelijk op de markt wil hebben, terwijl het nog niet heel goed werkt. Een jaar later kwam een nieuwe versie beschikbaar die al veel beter was, en dezelfde radioloog vertelde mij dat het toch wel handig was dat de aanvragende afdelingen hun rapporten nu veel sneller kregen. Ondertussen was mijn onderzoeksgroep zo gegroeid dat we dringend extra ruimte nodig hadden. Altijd lastig, waar vind je vrije ruimte in een druk ziekenhuis? Op een dag kwam diezelfde radioloog naar me toe, hij had een grote ruimte voor me gevonden. Ik ging meteen kijken. “Typekamer” stond er op het bordje bij de deur. Daar zaten vroeger de “dames van de typekamer” zoals ze genoemd werden, die de cassettebandjes met de ingesproken verslagen van de radiologen uittypten. Nu vervangen door computers. En hun bureaus ingenomen door mijn onderzoekers die computers het werk van radiologen leren: het interpreteren van medische beelden.

De computer kan dus al gesproken tekst verstaan, maar kan ze die tekst ook begrijpen? Kan een computer moeilijke, willekeurige vragen beantwoorden? Net zo goed, of beter, dan de slimste mensen? Dat kan toch zeker niet? In 2006 heeft IBM een team van twintig onderzoekers de opdracht gegeven zo’n computersysteem te bouwen. Het team richtte zich op de Jeopardy kwis, dat is een TV kwis die in de Verenigde Staten al 25 jaar loopt waarbij kandidaten moeilijke, cryptische vragen moeten beantwoorden. In Figuur 4 ziet u hoe goed de deelnemers van de kwis zijn. Elk puntje is iemand die een aflevering heeft gewonnen. Je ziet hoe vaak hij of zij als eerste de knop heeft ingedrukt en het antwoord mocht geven, dat staat horizontaal uit, en hoe vaak het antwoord goed was, dat staat verticaal uit. Die dikkere puntjes zijn van Ken Jennings, met 74 op rij gewonnen afleveringen is hij kampioen Jeopardy aller tijden.

Figuur 4.De vooruitgang van IBM’s Watson in het correct beantwoorden van vragen uit de Jeopardy kwis (bron).

In Figuur 4, een prachtige grafiek, ziet u de vooruitgang van Watson, het computersysteem van IBM, vanaf 2006. Aanvankelijk gebruikte IBM een standaardsysteem voor dit soort problemen (de “baseline” in de grafiek). Het leek nergens op. Het was net zo waardeloos als die eerste probeersels op het gebied van spraakherkenning, zou je kunnen zeggen. Alhoewel ik bang ben dat ik, en ik ben nu toch professor, nauwelijks beter zou presteren, Jeopardy is echt een lastige kwis. Maar kijk wat er mogelijk is met een flink team van slimme onderzoekers. Gaandeweg werd Watson steeds beter. De laatste curve hier is van april 2010. In januari 2011 trad Watson in het veld tegen Ken Jennings en een andere Jeopardy kampioen15. De strijd werd drie avonden lang op televisie uitgezonden, en de mensen werden verslagen door Watson. Met zijn laatste antwoord gaf Ken Jennings zich gewonnen. Hij schreef op zijn antwoordkaartje: “I, for one, welcome our new computer overlords.”

Wat een lang verhaal over een computer die een kwis speelt. Wat heeft dat nu met het vakgebied van de nieuwe professor te maken? Nou, IBM heeft ondertussen laten zien waar ze Watson vooral voor in wil zetten: het helpen van artsen bij het stellen van diagnoses.

In 2004 publiceerden twee invloedrijke economen, Levy en Murnane, een studie waarin ze in kaart brachten welke menselijke bezigheden zich wel en welke zich niet goed lenen voor automatisering. En als hèt voorbeeld van iets wat echt niet binnen afzienbare tijd geautomatiseerd zou kunnen worden noemden ze het besturen van een auto. Ondenkbaar dat een computer met een camera en andere sensoren, in het verkeer, onder al die verschillende omstandigheden, steeds goed zou kunnen besluiten wat je moet doen. In dat jaar, 2004, organiseerde DARPA, de research organisatie van het Amerikaanse Ministerie van Defensie, voor het eerst een Grand Challenge18. Een prachtig initiatief. In 2007 ben ik zelf begonnen met het organiseren van Grand Challenges in Medical Image Analysis. Bij de DARPA challenge moesten auto’s, volledig bestuurd door computers, een route van 240 kilometer afleggen door de woestijn. Levy en Murnane leken helemaal gelijk te hebben. Geen enkele auto haalde de finish. De beste auto reed na twaalf kilometer in een greppel en kwam er niet meer uit.

Maar een jaar later, 2005, reden vijf auto’s de hele challenge uit. De winnaar was Stanley, een auto gebouwd door een team van Stanford University, geleid door de Duitser Sebastian Thrun. Thrun ging daarna bij Google werken en kreeg de vrije hand om een volledig autonoom rijdende auto te ontwikkelen. Thrun deed iets heel slims: hij nam niet alleen zijn eigen team mee naar Google maar huurde ook een hoop ingenieurs in van zijn grootste concurrent in de Challenge, het team van Carnegie Mellon. Met zo’n vijftien man werkte ze jarenlang aan de Google Car. Google doet nog steeds een beetje geheimzinnig over de auto’s, maar ze hebben inmiddels honderdduizenden kilometers zelfstandig rondgereden, onder de meest uiteenlopende omstandigheden, tussen het gewone verkeer in.

Wat ik u met dit spectaculaire voorbeeld mee wil geven is dat iets wat in 2004 voor absoluut onmogelijk werd gehouden, en met die eerste challenge eigenlijk belachelijk werd gemaakt, een paar jaar later al mogelijk was. Zo snel gaan de ontwikkelingen in machine learning. Marktanalisten zien de komst van zelfrijdende auto’s inmiddels als een vanzelfsprekendheid en verwachten dat ze binnen tien jaar voor iedereen te koop zijn. Ik zag vorige week een verkiezingsdebat op TV over Europa, dat werd ingeleid met een filmpje van zo’n “gewone hardwerkende Nederlander”, een vrachtwagenchauffeur die bang was dat hij zijn baan zou verliezen aan een Pool of een Bulgaar. Geen enkele politicus vertelde hem dat hij inderdaad zijn baan gaat verliezen. Maar niet aan een Pool of een Bulgaar.

MACHINES DIE MEDISCHE BEELDEN BEGRIJPEN

Nu kom ik dan eindelijk te spreken over computers die medische beelden begrijpen.

In 2002 bedacht Meindert Niemeijer, als afstudeerder in mijn groep, hoe een computer handfoto’s kan analyseren. Die foto’s (zie Figuur 5) maak je om de botleeftijd van een kind te bepalen, en zo te voorspellen wat iemands volwassen lengte zal worden. Dan kan je beslissen om bijvoorbeeld te behandelen met groeihormonen. Elk botje ontwikkelt zich in een aantal fasen en radiologen moeten alle botjes bekijken en inschatten hoe ver de ontwikkeling van de hand is. Wij bedachten een manier om dat automatisch te doen, waarbij we de computer met een grote database van beelden de statistiek van vorm en densiteitsveranderingen in die botjes leerde. We behaalden mooie resultaten en, zoals het wetenschappers betaamt, schreven we er een artikel over. Maar ja, klaar om het in de kliniek te gaan gebruiken was het nog niet, en er was geen geld voor dit project. Gelukkig inspireerde ons werk een Deense onderzoeker, Hans Henrik Thodberg, die verder ging waar Meindert ophield, uiteindelijk zijn baan aan de universiteit opgaf, een bedrijf startte en zijn produkt, BoneXpert, nu aan ziekenhuizen verkoopt.

Figuur 5. Links: Handfoto met de output van het BoneXpert programma. De gele stippellijnen geven de botcontouren aan die de computer heeft gevonden en bij elk botje is de automatisch geschatte leeftijd weergegeven. Op basis van deze individuele schattingen en een analyse waarbij uitbijters worden weggelaten wordt de botleeftijd bepaald. Rechts: Schatting van BoneXpert uitgezet tegen de bepaling door een radioloog voor 538 Rotterdamse kinderen. De zeven gevallen waarin computer en mens meer dan 1.9 jaar verschilden zijn opnieuw beoordeeld en deze herbeoordeling lag in alle zeven gevallen dichter bij het oordeel van de computer dan bij dat van de mens.

Thodberg heeft op verschillende manieren laten zien dat zijn computerprogramma nauwkeuriger is dan een radioloog. Ik wil één resultaat laten zien. In Figuur 5 staat voor 538 Rotterdamse kinderen de botleeftijd die de computer bepaalde uitgezet tegen het oordeel van een radioloog. Zoals u ziet is de overeenkomst heel goed. Substantiële discrepantie zien we slechts bij zeven kinderen, vier jongens en drie meisjes, de punten waar een R bij staat. Die zeven foto’s zijn door een panel van experts opnieuw, blind, gescoord. In alle zeven gevallen bleek bij dit nader onderzoek dat de computer het bij het rechte eind had. De BoneXpert is sinds kort ook in ons ziekenhuis in gebruik en onze kinderradioloog mailde me dat ze tegenwoordig voor het eerst in haar leven met plezier de skeletleeftijden verslaat.

Na zijn werk aan de handfoto’s stortte Meindert Niemeijer zich, samen met mij en met Michael Abramoff, een oogarts die later naar Iowa vertrok, op een nieuw probleem: de vroege detectie van diabetische retinopathie. Dat is een van de meest voorkomende oorzaken van blindheid. Iedereen met suikerziekte zou jaarlijks zijn ogen moeten laten controleren met een fundusfoto. Maar er zijn te weinig oogartsen om al die beelden te beoordelen, en er komen steeds meer mensen met suikerziekte bij. De oplossing voor dit probleem is: automatiseren. Niemeijer ontwikkelde daar een compleet systeem voor, hij promoveerde, vertrok ook naar Amerika en heeft daar met Abramoff inmiddels een bedrijf opgericht. In mijn groep zet Clarisa Sánchez dit werk voort.

Figuur 6. Linksboven: fundusfoto met rode en gele lesies die beiden typisch zijn voor diabetische retinopathie. Rechtsboven: dezelfde foto met de output van een computeranalyse. Linksonder: ROC curves van twee oogsartsen en de computer die beelden uit de Messidor data set beoordeeld hebben op de aanwezigheid van diabetische retinopathie. Hoe hoger de curves, hoe nauwkeuriger. Rechtsonder: ROC curve van een computersysteem voor detectie van maculadegeneratie, een andere oogziekte die met fundusfoto’s opgespoord kan worden. Het driehoekje geeft de nauwkeurigheid van een oogarts aan.

In Figuur 6, linksonder, ziet u de performance van twee oogartsen op een publieke database. Ze hebben alle beelden op een schaal van 1 tot 100 gescoord. Je kunt dan varieren bij welke waarde je de grens tussen normaal en abnormaal legt en dan krijg je de curve uit de figuur. Horizontaal staat hoe vaak je vals alarm slaat, en verticaal welk gedeelte van de abnormale foto’s gedetecteerd wordt. Hoe hoger de curve, hoe beter. Dit soort curves komen dadelijk nog een paar keer terug. U ziet dat de computer precies tussen de twee oogartsen in zit. Clarisa en haar promovendus Mark van Grinsven hebben het afgelopen jaar samen met de afdeling Oogheelkunde in ons ziekenhuis ook een methode ontwikkeld om macula-degeneratie te detecteren, een andere belangrijke oorzaak van blindheid. Ook hier is de nauwkeurigheid van de computer, de oranje curve in de grafiek, vergelijkbaar met die van een oogarts, het driehoekje.

Ik werk al heel lang aan de automatische detectie van tuberculose in thoraxfoto’s. Dat doe ik samen met Delft Imaging Systems. Dit bedrijf heeft een compleet concept ontwikkeld voor het vroeg opsporen van TB: een verplaatsbare container, met een digitaal x-ray apparaat en een kleine labruimte, zodat het een mobiele kliniek vormt. Een van die units hebben we, dankzij subsidie van Agentschap NL, in de Kanyama kliniek in Zambia kunnen plaatsen en deze unit heeft inmiddels vele tienduizenden beelden gemaakt. Daarmee hebben wij de computer getraind in het herkennen van patronen die typisch zijn voor tuberculose. Ook hier geldt weer dat het bouwen van zo’n systeem veel werk is, maar geleidelijk wordt de software steeds slimmer. Mijn eigen systeem, waar ik in 2001 op gepromoveerd ben, sloeg bijvoorbeeld vals alarm als er knopen of ritsen of bh-beugels voorkwamen in de rontgenfoto, zoals in de foto’s van Figuur 7.

Figuur 7. Twee thoraxfoto’s waarbij knopen en een ritssluiting over de longvelden geprojecteerd zijn. In de bewerkte foto’s zijn deze objecten gedetecteerd door de computer en vervangen door textuur uit de omgeving zodat de er op volgende computeranalyse deze geprojecteerde objecten niet per abuis aanziet voor afwijkingen in de longen.

Denk maar weer aan die kinderziekten van de spraakherkenningssoftware. Dus heeft Laurens Hogeweg, een van mijn promovendi, een detector voor dit soort objecten gebouwd en de computer geleerd hoe je deze objecten kan weggummen uit de foto. Door eindeloos dit soort verbeteringen uit te proberen, en als iets goed werkt het toe te voegen aan het gehele systeem wordt de software steeds beter. Dit jaar is Pragnya Maduskar, een andere promovendus, naar Lusaka gegaan en daar heeft ze de computer vergeleken met Zambiaanse clinical officers. Want in Afrika zijn helemaal geen radiologen om dit soort beelden te beoordelen. De clinical officers en de computer waren even goed in het beoordelen van de foto’s.

Toen begon er in de Kanyama kliniek een grote nieuwe studie. Zambart, de organisatie waarmee we samenwerken, onderzoekt de kosteneffectiviteit van een nieuwe, op DNA analyse gebaseerde TB test, de GeneXpert. Dit is een veelbelovende test, maar te duur en te langzaam om grote groepen te onderzoeken. Dus krijgen mensen die zich met symptomen melden in de kliniek eerst een X-ray en bij afwijkingen op de X-ray wordt de GeneXpert ingezet. Helaas besloot de clinical officer die alle foto’s zou gaan bekijken net bij het begin van de studie om een beter betaalde baan bij de Zambiaanse mijnen te nemen. Wat nu? Zambart besloot de dokter gewoon te vervangen door de computer en onze software beslist nu wie de GeneXpert test krijgt. De eerste resultaten zijn zeer veelbelovend. Hoe hoger de score die de computer aan de X-ray geeft, hoe groter de kans dat de GeneXpert test inderdaad TB constateert en de patiënt direct op behandeling kan worden gezet.

Nu iets over het koningsnummer van mijn vakgebied, het vinden van tumoren in mammogrammen. De meeste Westerse landen hebben een bevolkingsonderzoek naar borstkanker ingevoerd. Het bekijken van die miljoenen mammogrammen is enorm tijdrovend en ook wel geestdodend. Dit werd dan ook al in de jaren tachtig gezien als de ideale toepassing voor het laten lezen van medische beelden door een computer. Toch bleek het niet eenvoudig de nauwkeurigheid van de radioloog te benaderen. Bedrijven hebben daarom ingezet op alleen het maken van een hulpje voor de radioloog, software die als een soort spellchecker moet voorkomen dat de radioloog in een moment van onoplettendheid iets over het hoofd ziet. Toen bedrijven, een jaar of tien geleden, geregeld hadden dat er voor die software een vergoeding werd gegeven zijn ze grotendeels gestopt met het verbeteren van hun algoritmen: ze ontvangen hun vergoeding immers toch al! Maar mijn collega Nico Karssemeijer, die cruciale onderdelen van deze software voor de industrie heeft bedacht, gaat wel onverstoorbaar verder met het verbeteren van zijn algoritmen. Volgende maand promoveert Rianne Hupse hier op en ik wil u daar een resultaat van laten zien.

Figuur 8. Resultaten van een observerstudie waar radiologen en een stand-alone computersysteem vergeleken werden op het vinden van borstkanker in mammogrammen. Links: Radiologen werd gevraagd alle verdachte gebieden aan te geven en te scoren op een schaal van 0–100. Hiermee kunnen de rode curves geconstrueerd worden. De groene curve is de computer die in het relevante gebied links in de grafiek, waarbij een paar procent van de vrouwen ten onrechte teruggeroepen wordt voor nader onderzoek, vergelijkbaar scoort. Rechts: wanneer gekeken wordt naar de subset van kankers en beelden die in de screening ten onrechte werden teruggeroepen presteert de computer beter dan de radiologen.

In Figuur 8 ziet u links het huidige Nijmeegse systeem, de groene lijn, ten opzichte van een aantal screeningsradiologen, de rode lijnen. In het klinisch relevante gebied, bij een lage kans op vals alarm, dat is helemaal links, doet de computer het eigenlijk even goed als de ervaren radiologen. Nog spectaculairder is het resultaat voor de subset van gevallen die in de screening ten onrechte werden doorverwezen, rechts in Figuur 8. Die groep moeilijke gevallen beoordeelt de computer veel beter dan radiologen in opleiding en zelfs beter dan ervaren screeningsradiologen.

Ik wil eindigen met een voorbeeld over samenwerking. Twee weten meer dan één, luidt een bekende wijsheid. Artsen worden jarenlang getraind om hulp van collega’s in te roepen als ze er bij een moeilijk geval niet uitkomen. Ik heb acht computeralgoritmen laten samenwerken, als onderdeel van zo’n Challenge. Alle acht afzonderlijk ontwikkeld om nodules, mogelijke longtumoren, te detecteren in CT scans. Sinds vorig jaar weten we dat longkankerscreening met lage dosis CT longkankersterfte reduceert. En het zoeken naar nodules in deze driedimensionale scans is nog veel tijdrovender en geestdodender dan het lezen van mammogrammen. Vandaar dat ik het graag helemaal wil automatiseren.

Ik liet de acht computersystemen 50 scans analyseren uit Utrecht, gemaakt voor NELSON, het Nederlandse longkankerscreeningsonderzoek. Twee systemen zijn ontwikkeld door bedrijven, Philips Research in Hamburg en Mevis Medical Solutions in Bremen. De andere systemen komen uit de VS, Italie, Brazilie, en Utrecht, een systeem dat Keelin Murphy als afstudeerder in mijn groep maakte en tijdens haar promotie-onderzoek verder ontwikkelde. Acht experts, met een uiteenlopend niveau, zoals u ziet in Figuur 9.

Figuur 9. Acht systemen om nodules te detecteren in CT scans van de thorax.Verticaal staat uit welk gedeelte van de nodules gevonden wordt, horizontaal hoeveel gebieden per scan ten onrechte worden aangegeven. De dikke rode lijn is het resultaat van het combineren van al deze gebieden.

Als je die acht systemen nu eens samen laat werken. Ik heb daarvoor een methode bedacht om de output van meerdere systemen te combineren. Maar waarom zou het nu zinvol zijn een goed systeem te combineren met de mening van een slechter systeem? Wordt het goede systeem daar wel beter van? Een verklaring waarom dat kan werken is dat de systemen naar verschillende dingen kijken. Stel u hebt bijvoorbeeld twee systemen om bananen te herkennen. Eén systeem let alleen op of er iets geels te zien is en roept dan banaan. Een ander systeem kijkt of er iets kroms te zien en roept dan banaan. Neem je ze samen, dan krijg je een systeem dat kromme gele dingen zoekt, en dat werkt veel beter dan krom of geel afzonderlijk.

De bovenste curve in Figuur 9 is het resultaat van de combinatie van dit wereldteam van acht computersystemen. Samen doen ze het fantastisch. En als je nou zo’n CT scan upload in de cloud, dat kost een paar seconden, de meesten van u hier doen het elke dag, met uw foto’s en andere computerbestanden, dan kan je makkelijk acht softwarepakketten die scan laten doorrekenen, dat kost alleen maar een piepklein beetje elektriciteit. Menselijke experts zijn duur, en de nieuwste scanners ook, dus kan niet iedereen, niet ieder ziekenhuis, het allerbeste in de wereld betalen. Maar bij software die draait op computers die razendsnel wereldwijd kunnen communiceren, is er geen enkel beletsel om niet overal en altijd de beste algoritmen in te zetten om afwijkingen zo goed mogelijk te detecteren, te quantificeren, en de juiste diagnose te stellen.

SAMENVATTING

Dames en heren, ik heb in deze les willen laten zien dat mijn vak, computers leren medische beelden te begrijpen, onderdeel is van een brede ontwikkeling. Mensen zijn 7000 jaar geleden begonnen met het ontwikkelen van technologie. Sinds 200 jaar bouwen we machines waardoor onze eigen spierkracht, en die van onze werkpaarden, niet meer nodig is. En nu kunnen we, voor het eerst, de volgende stap in de evolutie zetten, door machines te bouwen die onszelf op het gebied van denkkracht overstijgen. Machines die bovendien instantaan gegevens kunnen uitwisselen, zeg maar samenwerken, met hun collega-machines over de hele wereld. Dat is een fascinerende ontwikkeling en die gaat onze samenleving volledig veranderen. Ik vind het een groot voorrecht dat ik daar met het onderzoek van mij, en van mijn groep, een bijdrage aan kan leveren.

DANKWOORD

Aan het eind van dit verhaal wil ik graag een aantal mensen bedanken. Geachte leden van het College van Bestuur en het Bestuur van de Faculteit der Medische Wetenschappen. Ik wil u danken voor het in mij gestelde vertrouwen. Maar ik had deze positie nooit kunnen bereiken zonder de lessen, de hulp, het enthousiasme en de steun van veel meer mensen.

Allereerst Meneer van Ooijen. Van hem heb ik op de lagere school, in de vierde klas, meer geleerd dan tijdens alle andere jaren bij elkaar. Dat is een uitspraak van mijn moeder, en moeders kunnen zoiets weten. Ik speelde in dat jaar voor het eerst toneelstukken. Eerst als de zwerver Nol Oliebol, maar in mijn tweede rol was ik meteen al bevorderd tot professor, Professor Veelweter om precies te zijn. Deze geleerde bouwde een gigantische machine die het antwoord op alles wist. Ik wil niet psychologiseren maar de parallel met mijn huidige werk lijkt me toch duidelijk. Helaas braakte die machine een verschrikkelijk driekoppig monster uit, genaamd Griezelmans, gespeeld door drie lieve meisjes uit mijn klas, dat dan weer wel. De afdeling Radiologie is dus alvast gewaarschuwd.

Bij de vakgroep Fysica van de Mens aan de Universiteit Utrecht heb ik voor het eerst zelf onderzoek gedaan en gemerkt hoe leuk dat is. Dat kwam voor een groot deel door het enthousiasme en de belangstelling die ik daar kreeg van Jan Koenderink en Astrid Kappers. Tot die periode zag ik wetenschap niet als iets waar ik mijn werkzame leven aan zou moeten wijden, maar dat is daar veranderd.

Dus ging ik promoveren en steeds als ik vast zat werd ik weer enthousiast gemaakt door mijn begeleider, Bart ter Haar Romeny. Bart, bedankt, jouw passie voor je vak is uniek en onvergetelijk. Het waren vier heerlijke jaren, ik zou er zo opnieuw aan willen beginnen.

Ik kon in Utrecht mijn eigen groep opzetten in het ISI van Max Viergever. Max, bedankt dat je mij die kans hebt geboden, alle vrijheid gaf, en mij van dichtbij liet zien hoe je een goede onderzoeksgroep leidt. Je stond altijd klaar, voor goed advies, en je regelde altijd alles wat ik nodig had. Die kans heb je niet alleen aan mij gegeven, maar aan een heleboel mensen. Daardoor heb je ongelooflijk veel betekend voor de medische beeldverwerking.

Nico Karssemeijer, in de jaren voordat we echt samenwerkten heb ik al veel van je geleerd, en aan je te danken gehad, maar dat gaat nu nog verder. Jij bent in mijn ogen de allerslimste in ons vakgebied. Het is een eer voor mij, en het is ook nog eens heel leuk en gezellig, om samen met jou een fantastische groep te leiden.

Dear Heinz Otto Peitgen and Horst Hahn, thanks to the collaboration Nico already set up with you, I have got to know you and Fraunhofer MEVIS very well. You have really shown to me the value of a very close collaboration. With our strategic alliance we have already achieved so much in a short period of time. I am looking forward to many great things that we will do together in the future.

Mathias, op een dag vlak na mijn promotie, ving ik ergens op de gang op dat er binnenkort een opvolger voor Paul van Waes zou beginnen, ene Prokop uit Wenen. Ik was stomverbaasd want ik kende toen nog weinig radiologen, maar ik had wel alles gelezen over thoraxfoto’s en beeldverwerking en er waren twee namen van radiologen die ik steeds tegenkwam, ene Prokop en ene Schaefer-Prokop. En nu zou die Prokop ineens bij ons op de afdeling komen werken! Ik zag enorm uit naar een mogelijke samenwerking. En ik had het genoegen dat beide Prokoppen ook met mij wilde gaan samenwerken. Mathias en Cornelia, ik kan het hier kort houden: jullie hebben mijn hoge verwachtingen op alle mogelijke manieren overtroffen. Mathias, ik ben met je meegegaan naar Nijmegen, jij hebt mijn positie hier mogelijk gemaakt en het is heerlijk een baas met een geweldige visie te hebben. Iemand die niet boos wordt als ik vertel dat mijn doel is je te vervangen door een computer. Die dat niet belachelijk maakt, het niet bestrijdt, maar juist overal uitdraagt hoe het werk van radiologen enorm gaat veranderen en alleen maar interessanter gaat worden.

Ik wil al mijn collega’s bedanken. De sprekers van mijn symposium vandaag. Alle artsen waar ik mee heb mogen samenwerken, het zijn er te veel om hier te noemen. En ook de bedrijven die ons onderzoek steunen en vooral: toepassen in hun producten. De mensen van Toshiba uit Zoetermeer en uit Japan, van Delft Imaging Systems uit Veenendaal, van Riverain uit Ohio, van Mevis Medical Solutions uit Bremen. Zonder jullie zal wat wij bedenken nooit de patiënt bereiken. En bijna al die bedenksels, ere wie ere toekomt, komen van mijn promovendi. Marco, Joes, Ingrid, Meindert, Ivana, Eva, Yulia, Adriënne en Keelin, allemaal gepromoveerd in mijn groep in Utrecht, bedankt voor jullie fantastische werk en jullie enthousiasme. Nu werk ik in Nijmegen met een heleboel andere geweldige promovendi. Zij worden niet alleen door mij begeleid, maar vooral ook door Eva, Clarisa, Rashindra, Nico, Henkjan en de andere Bram. Jullie vormen het hart van DIAG. Met zijn allen bouwen we iets prachtigs op. En daarbij hebben we veel steun van alle andere onderzoekers bij Radiologie, van de klinisch fysici, en van de goede organisatie en goede sfeer op de hele afdeling.

Tot slot wil ik mijn ouders, mijn moeder en ook mijn vader die hier helaas niet meer bij kan zijn, bedanken voor alles. En mijn familie en vrienden, mijn lieve Carolin en de allergeweldigste kinderen in de hele wereld, Anna en Jonas. En nu gaan we feest vieren! Want dat kunnen mensen veel beter dan die stomme computers!

Ik heb gezegd.