Google — alle Store Data’s moder. Bedste Big Data case nummer fire

Published in

Jon Lund

7 min readMar 16, 2014

Året er ca.1998 og jeg søger med en helt ny søgemaskine. Google, hedder den, og det er en af mine venner har vist den til mig. Den god. Rigtig god. Meget bedre end Altavista, som ellers var mit foretrukne valg.

Bunden i vejret på nettet
Det er to studerende, Larry Page og Sergey Brin, der står bag den nye søgemaskine. De har fundet en ny måde at anskue søgning på. I stedet for at læse, vurdere og systematisere det allerede dengang enormt store internet, vender de bunden i vejret, og ser efter de mønstre, nettet selv trækker ud mellem de mange stykker information. Det er anvendt Big Data, før nogen kender ordet. Af en kaliber, så Google — med rod i deres søgning — stadig er blandt de syv bedste Big Data-cases jeg har kunnet finde i min research af området. (De første tre har jeg allerede skrevet om her: Target — supermarkedet der ved når du venter dig, Pas på, tyve i LA. Politiet ved hvor og hvornår I slår til næste gang og 23andme.com løser medicinske gåder med banebrydende Big Data-approach. Bedste Big Data case #3)

Influenza og aktiekurser
Sig ”Big Data” og Google i dag, og mange vil tænke på, hvordan man ved at observere hvilke ord folk søger efter, kan forudse hvad der vil ske. En enkelt søgning gør ingen forskel — men når mange pludselig søger efter det samme, er der tit en grund til det. Det er f.eks. tanken bag Google Flu Trends, som — ved at se på udviklingen i influenza-relaterede søgninger — lige nu fortæller at Rusland og Asien er influenza-ramte, mens de i syd-amerika og Australien ser ud til at være pænt raske.

Googles flu trends forudser influenzaudbrud ud fra søgetrends: http://www.google.org/flutrends/

På samme måde har forskere udfra bevægelserne i Google-søgninger kunnet forudsige kurs-udsving på børsen. Opskriften på succes som Google-spekulant er tilsyneladende enkel: når søgninger med ordet ”gæld” vokser skal du sælge. Når de falder skal du holde igen.

Både influenza og aktiekurs-forudsigelser er virkeligt gode Big Data eksempler (selvom rigtigheden i forudsigelserne kan diskuteres). Men i mine øjne er og bliver de kun afledte eksempler på den Big Data kraft, der er lagt ned i Googles DNA. Der stammer fra den oprindelige søgealgoritme, Page og Brin udviklede i deres kollegieværelser.

Bibliotekar-døden
Det er Pagerank-algoritmen, der er Googles genialitet og sikrer Google deres gennembrud. Den virker som en tryllestav, der med et slag bringer orden i nettets mange sider, da den ser dagens lys. Det var nemlig ikke det at finde de mange sider, der i sig selv er problemet før Google. Problemet er at prioritere siderne, at finde ud af hvilke af de mange sider, en søgning resulterer i, der er den rigtige. Altså den — eller de — der bedste giver svaret på det man spørger efter. At sætte et menneske — eller en redaktion — til at læse alle siderne igennem var en dødtfødt opgave. Men det er ikke desto mindre dette bibliotekar-approach indeks’er som Yahoo og herhjemme Jubii lægger sig an på. I skøn forening med dem der havde lavet hjemmesiderne, der blev bedt om at medvirke til klassifikationen, forstås. Men også det var både upræcist og mangelfuldt og meget langsommeligt.

Ikke en kasse løsrevne sider
Pagerank griber klassifikationsopgaven anderledes an. I stedet for at se på indholdet af den enkelte side, zoomer den ind på forholdet mellem siderne. I form af de links, der konstituerer det dengang stadigt nye world wide web. De links, der gør at der er tale om et net, og ikke bare en kasse fuld af løsrevne websider.

Sådan virker Google
Ved at følge links’ene mellem de forskellige sider, opdager Brin og Page, et mønster. Nogen sider er der mange der linker til. Andre sider færre. Nogen sider linkes slet ikke til. Og konkluderer at mange må føle at de sider, som mange linker til, er gode. Ellers ville de jo ikke linke til dem. Resultatet er lige for: søger du f.eks. efter ordet ”gulerod” kommer de sider øverst i søgeresultatet, som både indeholder søgeordet, og som samtidigt har mange andre sider der linker til sig.

Jo flere sider der peger på dig, jo bedre er du. Særligt, hvis de sider der peger, selv er pege-gode. Billede fra Wikipedia.

Datahavet taler
Men det stopper ikke her. For i analysen af hvilke sider, der peger på hvem, er alle sider ikke lige. Links til en side, fra sider, som selv har mange links der peger på sig, har ekstra vægt.

Algoritmen forfines videre med tekstanalyse, der både udføres på de sider der skal findes selv, og på de sider der linker til den: står ordet ”gulerod” i overskriften, gives der pluspoint. Der gør der også hvis ordet står højt oppe på siden. Hvis det står der flere gange. Eller hvis forfatteren til siden har kodet det ind som et særligt nøgleord. Osv. Med et centralt greb har Page og Brin taget nettes styrke og vendt det mod sig selv. De har — selvom algoritmen hele tiden udvides og forfines — lavet et noget nær perfekt analyseværktøj til at finde hvad som helst i hele verden, der ikke kræver nogen som helst viden om det der søges efter. Kun relationerne betyder noget. Datahavet taler.

15% af det totale reklamemarked i Googles lommer
Det er stadig søgning, Google er bedst kendt for — og tjener flest penge på. Men data-succes’en følges op med flere andre initiativer. Gmail-, Maps- og YouTube er alle markedsledende tjenester, der samler informationer til Googles store databaser og bygger data-bastionerne endnu større.

På pengesiden er det reklame-markederne, Google angriber. TV- og radiostationer, biografer, aviser og magasiner har set stadig større dele af det reklamemarked, de ellers troede var deres, fordufte. Alene herhjemme har Google op mod 15% af det samlede reklamemarkede ved sidste opgørelse i 2012. Penge, der dels bygger på at Googles tjenester er populære blandt brugerne. Og på et auktionssystem, der på en avanceret vis forstår at fange alverdens annoncører ind i en budproces, der hele tiden matcher udbud og efterspørgsel, og sikrer alle parter den rigtige pris. Igen indsamles masser af data der analyseres og mathes mod hinanden. Det er ikke kun produktet — søgningen — Google har revolutioneret med sit Big Data-approach. Også måden at tjene penge på det imponerer som anvendt Big Data-tænkning.

Føreløse biler kører på data
Google hviler ikke på laurbærene og har de sidste par år skudt gang i en lang række initiativer, der ved første øjekast alle ligger ret langt fra søge-udgangspunktet. Men som, når man ser nærmere efter, alle har de — potentielt — store data som fællesnævner.

4:19 med Sebastian Thrun, chefen for Googles føreløse bil-projekt, der fortæller og viser film til TED i 2011.

Tag Googles føreløse biler, f.eks. De har — uden nogen bag rattet, men med en co-driver på passagersædet, der ville kunne gribe ind, hvis noget gik galt, kørt over 800.000 km på offentlig amerikansk vej. Kun en enkelt gang er det gået galt. Og det var co-driverens skyld, ikke bilens. De føreløse Google-biler er ombyggede Toyota Prius’er og Audi TT’er med lasere, der hele tiden skanner bilens nære omgivelser, mens en radar kigger lidt længere frem, et kamera registrerer lyssignaler, og en gps placerer bilen på den rigtige vej. Altså: biler der kører på… data.

Data-lag på virkeligheden
Eller deres nye briller, der genkender det du ser på og tekster verden for dig.

Google-stifter Sergey Brin selv for et år siden på TED. Lidt over 7 minutter.

Direkte på brilleglasset. De har indbygget mobil-opkobling, så de hele tiden ved hvor de er, og kan hente oplysninger på nettet i realtime og vise dem for dig som undertekster på den oplevede virkelighed. Brillerne selv fotograferer også og ad den vej sender de oplysninger retur. Altså briller der kører på… data.

Robothundene kommer
Eller deres heftige opkøb i robot-industrien. Blandt andet af firmaet Boston Dynamics der blandt andet har et sæt farligt udseende robothunde med fire ben og cylinderformet krop på produktlisten.

Boston Dynamics’ — nu Googles — “Legged Squad Support System”, som hunden rigtigt hedder

Hunden er lavet til det amerikanske militær og møver sig trofast gennem selv det mest uvejsomme terræn — og kommer, takket være et hav af sensorer, på benene igen, hvis de falder. Og så reagerer på både fagter og sproglige kommandoer. Igen, hvad er robotter af denne slags, andet end mekanik og… data?

Ind i hjemmet
Sidst gav det genlyd, da Google for købte termostat-firmaet Nest, hvis termostater lærer af beboerne i de huse, de er sat til at temperaturstyre. Hvornår kommer de hjem, hvornår går de i seng og hvor varmt vil de gerne have det? Genlyd, fordi termostaterne af mange blev set som den første dataopsamlings-mekanisme, der skal udbrede Googles kendskab til også at omfatte hvad vi gør i den fysiske verden. En viden Google kan bruge til at lave endnu bedre søgeresultater og servere endnu mere målrettede reklamer, som vil presse priserne på deres reklame-auktioner endnu højere op. Eller måske en platform for helt nye services, som trækker på alt det, de i forvejen ved om dig og verden fra nettet.

Reklamefilm fra Nest. 1:11.

Derfor er Google en god Big Data case
Det var næppe Google der opfandt begrebet Big Data. Men i mine øjne er de den virksomhed, der i mest ekstrem grad er født, udviklet og tænkt af de store data. Ikke bare med et enkelte produkt, men på tværs af hele paletten. Og ikke bare som service, men også kommercielt. Ikke bare på nettet, men også i den virkelige verden. Og ikke bare i dag, men, om alt går vel, også i morgen. Derfor er Google blandt de bedste syv Big Data cases jeg kender.

Google — alle Store Data’s moder. Bedste Big Data case nummer fire

Written by Jon Lund