Kako lahko Ocean koristi podatkovnim znanstvenikom

Več podatkov, šifriran izvor, novi viri zaslužka

Simon Mezgec

Published in

Ocean Protocol International

6 min readMar 27, 2019

(Izvirna različica prispevka Trenta McConaghyja v angleščini.)

[Predstavljeno v okviru vabljenega predavanja na vrhu World Summit AI 2018 v Amsterdamu. Predstavitev.]

Uvod

Podatkovni znanstveniki bodo ključni uporabniki projekta Ocean Protocol. Ocean je načrtovan in zgrajen tako, da imajo ti uporabniki tri glavne prednosti. Najprej bomo predstavili, na kakšen način menimo, da bodo podatkovni znanstveniki uporabljali Ocean, potem pa bomo podrobno predstavili te tri prednosti.

Uporabniška izkušnja

Orodje Interactive Python (IPython) znotraj projekta Jupyter se je uveljavilo kot primaren vmesnik za dnevna opravila podatkovnih znanstvenikov. Vmesnik protokola Ocean bo direktno podpiral orodja, kot je Jupyter, in k temu dodal elemente kriptovalut.

V primeru uporabe brezplačnih (javno dostopnih) podatkov ni potrebno opraviti nič drugega, saj bo vse potrebno vključeno v knjižnicah, kot je scikit-learn. V primeru kupovanja in prodaje podatkov ali storitev pa se lahko orodje Jupyter preko knjižnice web3.py integrira v denarnice, kot je MetaMask — tukaj je povezava do trenutne različice relevantnega repozitorija (projekt Manta Ray). Pričakujemo, da se bo omenjeni projekt v prihajajočih tednih in mesecih občutno razvil.

Potrebno je imeti podporo za registracijo in objavo podatkovnih zbirk, kuracijo in stave na teh zbirkah, in za bolj splošno upravljanje z njimi. Na spodnji sliki je zgodnji primer vmesnika, ki uporablja krivulje z razmerjem med trenutno ceno in zalogo žetonov (angl. bonding curves) za kuracijo podatkovnih zbirk. Te krivulje pomagajo uporabnikom signalizirati, za katere podatkovne zbirke menijo, da bodo uporabne. Kot zanimivost — mogoče je registrirati in objaviti ne samo podatkovne zbirke, ampak tudi zvezke same (npr. Jupyter zvezke), kar olajša postopek deljenja algoritmov in kode za vizualizacijo.

Tukaj je povezava do trenutne različice relevantnega repozitorija (projekt Pleuston).

Povzetek prednosti

Zamislili smo si tri ključne prednosti za podatkovne znanstvenike:

· Občutno večja količina podatkov. (a) Več javno dostopnih podatkov na račun nagrad omrežja, in (b) več podatkov iz podjetij z manj skrbmi glede uhajanja podatkov na račun dostopa do lokalnega računanja (angl. on-premise compute).

· Šifriran izvor za podatke in učenje umetne inteligence.

· Več priložnosti za zaslužek. Zaslužek za tvorjenje podatkov. Za čiščenje, označevanje in pridobivanje značilnosti podatkov. Za kuracijo in ponujanje podatkov in storitev.

Podrobnosti sledijo.

Prednost 1: Več podatkov

Motivacija. Raziskovalci s področja umetne inteligence se že dalj časa zavedajo dejstva, da je mogoče z večjo količino podatkov naučiti znatno bolj natančne modele. Z 10x, 100x ali 1000x več podatki je mogoče znižati mero napake iz 25% na 5%, na 1%, ali na 0,1%, kar naredi razliko med uporabnostjo in neuporabnostjo modela. Odličen primer so samovozeči avtomobili: ali bi se usedli v avtomobil s 25% verjetnostjo nesreče? Verjetno ne. Po drugi strani, če se napaka zgodi v enem od milijon primerov, je to lahko sprejemljivo, saj je to veliko varneje kot avto, ki ga vozi človek. Podatki lahko torej znižajo napako iz 25% na <<1%.

Ocean vzpodbuja povečevanje zaloge podatkov na dva načina: z nagradami za bloke in s podporo lokalnemu računanju.

Nagrade za bloke. Bitcoin ima ciljno funkcijo, ki maksimira varnost omrežja. Ta funkcija definira varnost kot hitrost iskanja ključev (angl. hash rate) in nato izdaja nagrade omrežja (Bitcoin žetone) vsem, ki prispevajo k temu.

Ustvariti je mogoče ciljno funkcijo za javno dostopne podatke — tukaj je cilj maksimirati zalogo relevantnih podatkov. Pričakovane nagrade za bloke so funkcija zneska stave na podatkih, in količine ponujanja teh podatkov.

Lokalno računanje. Spomnimo, da podjetja posedujejo velike količine podatkov. Ne poznajo vrednosti teh podatkov, vedo pa, da lahko imajo nekakšno vrednost, zaradi česar bi bila zadržana do njihove takojšnje objave med javno dostopne podatke. V primeru enkratne prodaje pa lahko podatki začnejo uhajati, tako da jih drugi kopirajo in prodajajo naprej. Poleg tega lahko pride tudi do težav z odgovornostjo glede vsebine podatkov, če ti vsebujejo osebno razpoznavne informacije.

Obstaja način za rešitev teh težav, torej za omogočanje izvajanja poskusov z nizko stopnjo tveganja: prenos računanja k podatkom samim. Z implementacijo vmesnega decentraliziranega sloja je mogoče organizirati korake, ki se zgodijo za požarnim zidom: pridobivanje privatnih podatkov, izgradnja modela in shranjevanje modela. Vse se zgodi zasebno, le napovedi modela se javno objavijo. S tem lahko podjetja eksperimentirajo z vrednostjo napovedi, hkrati pa se tveganje zasebnosti minimizira, ker podatki ostanejo za požarnim zidom, s šifriranim izvorom podatkov.

Prednost 2: Izvor

Pri izgradnji modela se je pomembno vprašati, od kje podatki sploh izvirajo? Primer: letala imajo črne skrinjice. V primeru nesreče letala se lahko črno skrinjico uporabi za raziskovanje vzroka nesreče. Kaj če bi nekaj podobnega imeli tudi za samovozeče avtomobile? V primeru nesreče bi lahko veliko bolje vedeli, kaj se je dejansko zgodilo. Za uresničitev te ideje pa je potrebno vedeti, kateri podatki so bili uporabljeni za učenje modela. Drugi primer: GDPR (evropska pravila za varstvo osebnih podatkov) predpisujejo razložljivost modelov — poznavanje izvora podatkov umetne inteligence in računanja bo pri tem zelo pomagalo.

Prednost 3: Zaslužek

Ocean obljublja nove priložnosti zaslužka za raziskovalce s področja umetne inteligence in podatkovne znanstvenike.

Predstavljajte si, da ustvarite naslednji ImageNet, torej naslednjo izredno pomembno podatkovno zbirko, ki jo bo uporabljalo ogromno ljudi. Na to zbirko stavite s svojimi sredstvi in jo date na razpolago uporabnikom, ki jo zahtevajo — v tem primeru lahko v zameno za vaše delo pričakujete nagrade omrežja, torej zaslužek. Če na to podatkovno zbirko stavijo tudi drugi, cena naraste zaradi mehanik prej opisanih krivulj (bonding curves), kar pomeni, da naraste tudi vrednost vašega deleža, ki ste ga stavili na svojo podatkovno zbirko.

Zaslužiti pa je mogoče tudi s kuracijo algoritmov ali podatkov drugih uporabnikov. Predstavljajte si primer, v katerem veste, da so nekatere podatkovne zbirke zelo uporabne. Posledično stavite na njih in jih date na razpolago drugim, zato da bi dobili nagrade omrežja. Podobno kot pri podatkih, ki jih ustvarite sami, se vrednost vašega deleža poveča, ko tudi drugi stavijo na te podatkovne zbirke.

Podobno je mogoče zaslužiti s čiščenjem in označevanjem podatkov, pridobivanjem značilnosti iz podatkov, itd.

Če izumite nov zanimiv algoritem, lahko tudi na ta način ustvarite dohodek z uporabo protokola Ocean. Lahko ga ponudite kot implementacijo algoritma, ali kot storitev, ki poganja algoritem.

Če ste del podjetja, vlade ali nevladne organizacije, in imate dostop do velike količine podatkov, imate sedaj način za ponudbo teh podatkov in tvorjenje prihodkov za vašo organizacijo brez tveganja za uhajanje podatkov (zaradi lokalnega računanja).

Če ste posebej ambiciozni, lahko ustvarite storitev za kupovanje ter prodajanje storitev in podatkov umetne inteligence, za denarnice, ki hranijo žetone za stave na podatkovnih zbirkah, za pomoč ostalim pri kuraciji in rudarjenju (ponujanju podatkov in storitev umetne inteligence), in za orodja podatkovne znanosti, ki vključujejo vmesnik do protokola Ocean. Za vsako od omenjenih storitev bi tipičen pristop lahko bil tak, da računate storitvene stroške (ki so lahko fiksni ali izraženi v odstotkih) — ravno tako, kot to počnejo PayPal, borze kriptovalut, in vaši lokalni bankomati.

Zaključek

Ocean je načrtovan in zgrajen za uporabo s strani podatkovnih znanstvenikov. Pričakujemo tri ključne prednosti: več podatkov, šifriran izvor, in nove priložnosti za zaslužek.

[Posodobitev 20. decembra] Projekt Manta Ray [blog] [zagon orodja] napreduje proti uresničevanju idej iz tega prispevka. Hvala Marcusu Jonesu, ki vodi ta projekt!

Ostalo

Hvala organizatorjem vrha World Summit AI za priložnost predavanja na WSAI 2018 v Amsterdamu. Spodaj se nahaja predstavitev iz tega predavanja.

Zahvala

Posebna zahvala gre ekipi Ocean Protocol za trdo delo na izgradnji vsega opisanega, in posebej Marcusu Jonesu za njegov vpliv na razmišljanje pri zasnovi orodij podatkovne znanosti. In hvala vsem podpornikom projekta Ocean Protocol!