Data Scientist v primerjavi z inženirjem podatkov, kakšna je razlika?

Podatkovni znanstveniki in podatkovni inženirji so morda novi nazivi delovnih mest, vendar so glavne vloge že nekaj časa. Tradicionalno bi vsakdo, ki je analiziral podatke, imenoval „analitik podatkov“, vsakdo, ki je ustvaril zaledne platforme za podporo analiziranju podatkov, pa bi bil „Business Intelligence (BI) Developer“.

Z nastankom velikih podatkov so se začele pojavljati nove vloge v korporacijah in raziskovalnih centrih - in sicer Data Scientist in Data Engineers.

Tu je pregled vlog Data Analyst, BI Developer, Data Scientist in Data Engineer.

Analiza podatkov

Analizatorji podatkov so izkušeni podatkovni strokovnjaki v njihovi organizaciji, ki lahko poizvedujejo in obdelujejo podatke, zagotavljajo poročila, povzemajo in vizualizirajo podatke. Dobro razumejo, kako uporabiti obstoječa orodja in metode za reševanje težave ter ljudem iz celotnega podjetja pomagati razumeti posebne poizvedbe s priložnostnimi poročili in grafikoni.

Vendar pa se od njih ne pričakuje, da se bodo ukvarjali z analizo velikih podatkov, prav tako se od njih običajno ne pričakuje, da bodo imeli matematično ali raziskovalno podlago za razvoj novih algoritmov za specifične težave.

Spretnosti in orodja: Analitiki podatkov morajo imeti osnovno razumevanje nekaterih temeljnih veščin: statistike, izmenjave podatkov, vizualizacije podatkov, raziskovalnih analiz podatkov, Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner, SQL, Microsoft Access, Tableau, SSAS .

Razvijalci poslovne inteligence

Razvijalci poslovne inteligence so strokovnjaki za podatke, ki tesneje sodelujejo z notranjimi deležniki, da razumejo potrebe poročanja in nato zbirajo zahteve, oblikujejo in gradijo BI in rešitve za poročanje za podjetje. Oblikovati morajo, razvijati in podpirati nova in obstoječa podatkovna skladišča, pakete ETL, kocke, nadzorne plošče in analitična poročila.

Poleg tega sodelujejo z relacijskimi in večdimenzionalnimi zbirkami podatkov in bi morale imeti odlične veščine razvoja SQL za vključevanje podatkov iz različnih virov. Vsa ta znanja uporabljajo za zadovoljevanje potreb po samopostrežnih storitvah v celotnem podjetju. Razvijalci BI običajno ne pričakujejo, da bodo izvajali analize podatkov.

Spretnosti in orodja: ETL, razvoj poročil, OLAP, kocke, spletna inteligenca, oblikovanje poslovnih objektov, Tableau, orodja nadzorne plošče, SQL, SSAS, SSIS.

Podatkovni inženir

Inženirji podatkov so podatkovni strokovnjaki, ki pripravijo infrastrukturo "velikih podatkov", ki jo bodo analizirali podatki znanstveniki. So inženirji programske opreme, ki načrtujejo, gradijo, integrirajo podatke iz različnih virov in upravljajo velike podatke. Nato napišejo zapletene poizvedbe in poskrbijo, da je lahko dostopen, da deluje brezhibno, njihov cilj pa je optimizirati uspešnost velikega podatkovnega ekosistema njihovega podjetja.

Prav tako lahko izvajajo nekaj ETL (Extract, Transform in Load) poleg velikih naborov podatkov in ustvarijo velika skladišča podatkov, ki jih znanstveniki lahko uporabijo za poročanje ali analizo. Ker se inženirji podatkov bolj osredotočajo na oblikovanje in arhitekturo, običajno ni pričakovati strojnega učenja ali analitike za velike podatke.

Spretnosti in orodja: Hadoop, MapReduce, Hive, Pig, MySQL, MongoDB, Cassandra, Pretok podatkov, NoSQL, SQL, programiranje.

Data Scientist

Znanstvenik podatkov je alkimist 21. stoletja: nekdo, ki lahko pretvori surove podatke v prečiščene vpoglede. Podatki znanstveniki pri reševanju kritičnih poslovnih težav uporabljajo statistiko, strojno učenje in analitične pristope. Njihova glavna naloga je pomagati organizacijam spremeniti obseg velikih podatkov v dragocene in uporabne vpoglede.

Dejansko podatkovna veda sama po sebi ni nujno novo področje, vendar jo je mogoče obravnavati kot napredno raven analize podatkov, ki jo poganja in avtomatizira strojno učenje in računalništvo. Z drugo besedo, v primerjavi z „analitiki podatkov“ naj bi poleg podatkovnih analitičnih znanj imeli še močne programske spretnosti, sposobnost oblikovanja novih algoritmov, ravnanje z velikimi podatki in nekaj znanja o domenskem znanju.

Poleg tega se pričakuje, da bodo podatki znanstveniki razlagali in zgovorno podali tudi rezultate svojih spoznanj z vizualizacijskimi tehnikami, gradnjo aplikacij za znanost podatkov ali pripovedovanjem zanimivih zgodb o rešitvah svojih podatkov (poslovnih) težav.

Spretnosti reševanja problematike podatkovnega znanstvenika zahtevajo razumevanje tradicionalnih in novih metod analize podatkov za gradnjo statističnih modelov ali odkrivanje vzorcev podatkov. Na primer, oblikovanje priporočil, napovedovanje borze, diagnosticiranje pacientov na podlagi njihove podobnosti ali iskanje vzorcev goljufivih transakcij.

Podatki znanstvenikom se lahko včasih predstavijo z velikimi podatki brez posebnega poslovnega problema. V tem primeru naj bi radovedni Data Scientist raziskal podatke, postavil prava vprašanja in podal zanimive ugotovitve! To je težavno, ker bi morali močni znanstveniki, da analizirajo podatke, imeti zelo široko znanje o različnih tehnikah strojnega učenja, rudarjenja podatkov, statistike in velike podatkovne infrastrukture.

Morali bi imeti izkušnje z delom z različnimi nabori podatkov različnih velikosti in oblik in biti sposobni učinkovito in učinkovito izvajati njegove algoritme na podatkih velike velikosti, kar običajno pomeni, da so na tekočem z vsemi najnovejšimi najnovejšimi tehnologijami. Zato je nujno poznati osnove računalništva in programiranja, vključno z izkušnjami z jeziki in tehnologijami baz podatkov (velike / majhne).

Spretnosti in orodja: Python, R, Scala, Apache Spark, Hadoop, orodja in algoritmi za rudarjenje podatkov, strojno učenje, statistika.

MUORO - Podatki in analitika Genius muoro.io