Möödunud on vaid kaheksa aastat sellest, kui DJ Patil – toona LinkedIni andme- ja analüütikajuht – lõi ühiselt kasutusele mõiste 'andmeteadlane', kuid sellest elukutsest on juba saanud üks kõige populaarsem riigis .
Patil on andmetööstusega pikka aega tegelenud. Marylandi ülikooli doktorandina ja hilisema õppejõuna kasutas ta NOAA avatud andmekogumeid, et aidata parandada numbrilist ilmaennustust. Peaaegu kaks aastat oli ta eBay, Inc. strateegia, analüütika ja toodete direktor; ta veetis LinkedInis ligi kolm aastat; ja ta on kirjutatud raamatuid andmekultuuri ja andmetoodete loomise kohta. Eelmisel aastal teatas Valge Maja oma toetust andmeteadusele ametisse nimetamine Patil selle esimese USA peaandmeteadlasena ja teadus- ja tehnoloogiapoliitika büroo andmepoliitika asepealiku tehnoloogiajuhina.
Miks otsustas valitsus, et tal on vaja peaandmeteadlast ja mida see ametikoht endaga kaasa toob? Teadusreede vestles Patiliga sellest, mis pani teda andmete vastu huvi tundma, mida tähendab 'andmeteadlaseks' olemine ja kuhu ta näeb tööstust.

Kuidas alustasite andmetega töötamist?
Üldiselt tunnen ma matemaatikat. Ma läbisin vaevu oma matemaatikatunnid keskkoolis ja mul oli väga vedanud, et läksin [Californias] kõrval asuvasse kolledžisse De Anza College. Parim otsus, mille ma kunagi teinud olen, oli minna oma tüdruksõbraga samasse klassi [naerab] ja ta õppis arvutamist, nii et ma läksin ja läksin sellesse kalkulatsioonitundi. Ja ma ütlesin: 'Püha jama, ma ei tea midagi; see on tohutult piinlik.” Mul oli tõesti hetk, mil otsustasin seda tegelikult õppida ja ka oma tüdruksõbrale muljet avaldada. Võtsin selle väga kiiresti kätte ja armusin matemaatikasse.
Sealt läksin üle UCSD-sse, kus hakkasin kaoseteooria ümber töötama paljude andmeaspektide kallal. Sealt läksin Marylandi ülikooli, kaoseteooria kodu, ja üks minu nõustajaid oli Jim [James] Yorke, kes lõi termini ' kaose teooria .'
Hakkasime tegelema ilmaennustusega . Tõesti komistasime, et ilm polnudki nii kaootiline, kui inimesed varem arvasid. Me tegime seda nii, et ma läksin igal õhtul kella 21.00 paiku sisse, võtsin salaja üle kõik matemaatikaosakonna arvutid ja seejärel laadisin kõik need andmed riiklikust ilmateenistusest alla, rebisin need lahti ja panin kokku. erinevatel viisidel – ja siis lahkumine enne kella kaheksat hommikul, kui keegi sisenes. See võimaldas meil leida need tõeliselt huvitavad mustrid. See oli minu jaoks 'a-ha!' hetk. Oh vau, kui teil on võimalik andmeid hankida, saate teha tõeliselt uskumatuid asju. Pärast seda, kui me seda tegime, sai sellest üks peamisi ilmaennustamise tehnikaid.
Seejärel aitasite luua termini ' andmeteadlane (koos Jeff Hammerbacheriga, kes oli Facebooki andmehaldur), eks?
Jah. See on hea ja halb. Ma arvan, et seal on huvitav küsimus, mis on andmeteadlane? Kas see pole lihtsalt teadlane? Kas teadlased ei kasuta lihtsalt andmeid? Mida see termin siis üldse tähendab?
Saates on olnud üks minu kaasautoritest Hilary Mason, ja asi, mille üle me nalja teeme ja millest koos kirjutasime, on see, et andmeteadlaste ametikirjelduse juures on number üks asi, et see on amorfne. Pole konkreetset asja, mida teete; töö omamoodi kehastab kõiki neid erinevaid asju. Teete probleemi lahendamiseks kõik, mida vajate.
Kui ehitate isejuhtivat autot, siis kes on need inimesed, kes ehitavad isejuhtivat autot? Nad on andmeteadlased – olgu nad siis tootejuhid, disainerid, mis iganes nad on. Need on inimesed, kes kasutavad neid tehnikaid ja ideid majandusest, statistikast, masinõppest, tehisintellektist, kõigist nendest distsipliinidest, et see konkreetselt toimima panna, panna auto sõitma viisil, mis hoiab teid ohutuna ja ka teised ohutud.
Parimatel andmeteadlastel on üks ühine joon: uskumatu uudishimu.
Kuidas on andmetööstus muutunud ja miks on teie arvates muutunud populaarseks olla andmeteadlane?
Arvan, et põhjus, miks andmeteaduse aspekt on praegu õitsele läinud, on üks, inimesed saavad andmeid koguda palju lihtsamalt kui varem; selle tegemiseks pole vaja palju vaeva näha. Teine on see, et nüüd, kui inimesed saavad koguda piisaval hulgal andmeid, tekib küsimus, okei, mida me peaksime sellega peale hakkama? Ja WHO kas tõesti kavatseb seda teha?
Kuidas te arvate, kuidas Valge Maja mõistis, et tal on vaja andmeteadlast?
Noh, üks asi, mida inimesed pole alati tegelikult arvesse võtnud, on see, kui palju see president on andmetele esimesest päevast peale keskendunud. Isegi kui astute tema kampaanias tagasi, on ta väga keskendunud andmete kasutamisele uudsetel viisidel avalikkusega suhtlemiseks. Juhtimisse jõudes on ta keskendunud kõigele, alates sellest, kuidas saavad patsiendid andmetele rohkem juurdepääsu, kuni selleni, kuidas me tagame, et kasutame andmeid läbipaistvuse tagamiseks – [st] avatavate andmete hulga suurendamiseks. Oleme loonud data.gov , kus on peaaegu 200 000 andmekogumit, mis on kõigile vaatamiseks saadaval. Kuidas me kasutame andmeid, et parandada teenuseid kõigile? Tegelikult [president Obama] on seda teinud täitevkorraldus et kõik valitsuse andmed on vaikimisi avatud ja masinloetavad ning et andmed, mis avaldatakse föderaaluuringute dollarite abil, peaksid olema tasuta, sest kes selle eest maksis? Maksumaksjad. (Seal on ajavahemik, mille jooksul tahame, et [tervise] ajakirjadel oleks eksklusiivne juurdepääs, kuid pikemas perspektiivis ei peaks avalikkus selle eest maksma.)
Nii nagu ta oli esimene president, kellel oli tehnoloogiajuht, on ta tunnistanud, et on vaja meeskonda, kes keskenduks sellele, kuidas vallandada andmete jõud, et iga ameeriklane tõesti kasuks saaks.
Olete nüüd seda ametit pidanud üle aasta. Mis on teie seni uhkeim saavutus?
Senine saavutus, mille üle olen kõige uhkem, on see, et andmeteadlased on nüüd nende probleemidega aktiivselt ja tugevalt tegelenud ning nii paljudel föderaalasutustel on nüüd andmemeeskond või andmeteadlane või peaandmeteadlane. Võtke näiteks transport. Neil on andmeametnik, kes keskendub sellele, kuidas transpordiministeerium sellest uudsel viisil mõtleb? National Institutes of Health on inimene, kes on keskendunud uutele andmetele mõtlemise viisidele. Nii ka USA põllumajandusministeerium. Isegi USAID. Nii et kõik mõtlevad andmetele kui jõu kordistajale.
'Parimatel andmeteadlastel on üks ühine joon: uskumatu uudishimu.'
Kuhu näete andmetööstuse tulevikku?
Minu jaoks on tuleviku juures kõige põnevam see, kuidas andmed saavad iga vestluse osaks ja et tänu sellele teeme kiiremaid ja kvaliteetsemaid otsuseid. Mis juhtub on see, et me ei vaata andmeid ainult kord 10 aasta jooksul, et midagi hinnata – me vaatame andmeid väga regulaarselt ja korrigeerime palju reaalajas. Ja see võimaldab meil valitsusel pakkuda paremaid teenuseid ja olla paindlikum.
Mida soovitate inimesele, kes soovib saada andmeteadlaseks?
Alustamiseks pole kunagi paremat aega. Lihtsalt mine data.gov . Seal on peaaegu 200 000 andmekogumit, kus kui hakkate neid lihtsalt alla laadima, saate nendega mängida. Üks lahedamaid asju, mida saate praegu teha, on töötada andmetega kohaliku linna tasandil. Seal on Riiklik kodanikuhäkkimise päev [4. juunil 2016] ja see, mis sel päeval kogu riigis toimub, on see, et inimesed peavad oma kohalikus linnas häkatoni, nad hakkavad töötama kohalikul tasandil andmetega. Nad saavad neid andmeid kasutada oma kohalike kogukondade parandamiseks.
Millised on teie arvates andmetööstuse suurimad väljakutsed?
Midagi, mis minu arvates on tõesti oluline ja mille poole kutsusin, on see, et iga koolitusprogramm – olgu see siis bakalaureuse-, magistri- või andmeteaduse veebikursused – peab andmeeetika olema mitte valikaine, vaid meie toimimise keskne põhimõte. asju. Kui me töötame andmetega, on teil uskumatud võimalused nendega suuri asju teha ja teil on ka võimalus teha midagi, mis võib olla väga problemaatiline. Me näeme, kus inimesed on kasutanud andmeid viisil, mis meie arvates pole põhimõtteliselt okei. Inimesed on hakanud sellest rääkima ja sellest, mida me peaksime sellega ette võtma. Ma arvan, et meil tuleb palju tugevam vestlus. Privaatsuskomponendid on sama olulised.
Arvan ka, et peame palju rohkem inimesi andmeid kasutama. „Kasuta andmeid” tähendab, kuidas lugeda graafikut väga algtasemel kuni väga keerukate asjade tegemiseni. Inimeste igapäevaelus andmete kasutamise võimaldamine aitab inimestel oma saatust paremini kontrollida. See võib olla midagi nii lihtsat nagu: Kuidas valida kolledž? Sellepärast teeme haridusosakonnaga nii palju tööd, et ehitada üles Kolledži tulemuskaart , mis annab inimestele uudsel moel läbipaistvuse.
Kas saate oma rollis kunagi vastureaktsiooni?
Minu arvates on suurim tagasilöök see, kuidas me selle privaatsusaspekti haldame ja kuidas me samal ajal küberturvalisusele mõtleme? Põhjus, miks ma arvan, et vastureaktsioon ei ole päris õige sõna, on see, et kõik tunnevad siin ära väärtust, nii et see pole 'aga' - see on 'ja'. Kuidas andmeid kasutada ja privaatsust säilitada ja tagada küberturvalisus? Ma ei ole saanud kedagi, kes oleks meie probleemide peale vihane; Ma arvan, et meie probleem seisneb selles, et miks te ei tööta et ? Võib-olla on see suurim tagasilöök.
Kuidas siis nende privaatsuse ja küberturvalisusega seotud muredega toime tulla?
Olen neile väga keskendunud. Tegelikult on need integreeritud kõigesse, mida oleme teinud. Näiteks aastal Täppismeditsiini algatus , vabastasime privaatsuse ja usalduse põhimõtted Usume, et see on rakendus kõigile, kes sedalaadi biomeditsiinilise uurimistööga tegelevad. Seejärel avaldasime seda tüüpi uuringute jaoks turvaraamistiku kavandi ja lõpetame selle varsti. Niisiis, me praktiseerime seda, mida me jutlustame, kuna andmeeetika on iga meie ettevõtmise uskumatu komponent.
Seda artiklit on ruumi ja selguse huvides muudetud.