Big Data vs. Data Warehouses. Kaj je razlika?

Tehnologija napreduje s hitrostjo, ki je nemogoče dohajati, in starejši strokovnjaki za tehnologijo kmalu ugotovijo, da vsi ti dodiplomski tečaji tehnologije hitro zastarajo. Če ste glavni tehnološki direktor (CTO) v veliki družbi, nimate toliko časa, da bi se naučili novih tehnologij, ker ste preveč zaposleni v boju z požari in poskrbite, da boste videti dobro na naslednji seji upravnega odbora v pred vsemi drugimi, ki poskušajo storiti isto. V nekem trenutku se boste morda vprašali: kakšna je razlika med velikimi skladišči podatkov in skladiščem podatkov?

Vsak strokovnjak za tehnologijo bo seznanjen s tem, kaj je baza podatkov. To je preprosto zbirka podatkov, ki sčasoma raste in iz katere se z poizvedovanjem naučite zanimivosti. Potem je tu pojem podatkovnega skladišča, kar pomeni ime. Ne vdirajmo v celoten pogovor "Kimball proti Inmon" in ohranimo to zelo preprosto.

Skladišče podatkov je vrsta različnih baz podatkov v organizaciji, ki jih je mogoče povezati s skupnim ključem. Na primer, lahko povežemo zapise v več baz podatkov z edinstvenim poljem, imenovanim CUSTOMER_ID. Tu so zbirke podatkov v različnih oddelkih, kjer obstajajo zapisi, ki jih bomo morda želeli povezati s CUSTOMER_ID:

S CUSTOMER_ID lahko nato enostavno natisnete na eno stran, seznam vseh računov, ki niso bili plačani, in seznam 10 najnovejših zahtev po storitvah, ki jih prodajalec lahko nato vzame s seboj na prodajni sestanek. Seveda za vse to danes uporabljamo samo Salesforce, vendar ta preprost primer daje predstavo, kako koristno je povezati različne vire podatkov. To je tisto, kar sestavljajo skladišča podatkov, le da to storijo še korak dlje in uporabljajo povezane podatke za sprejemanje odločitev na zelo visoki ravni. Pri gradnji podatkovnega skladišča običajno veste, na katera vprašanja bi želeli odgovoriti, ker neka oseba na ravni C zahteva določitev nekaterih ključnih kazalnikov uspešnosti (KPI). Ne želite samo graditi skladišč podatkov, da bi jih zgradili, ker je to drago opravilo. Zdaj pa govorimo o "velikih podatkih" in skladiščih podatkov.

Prva stvar, ki jo moramo opredeliti, je izraz "veliki podatki", ki se v veliki meri sam opredeli. Verjetno ste že slišali pogosto citirano statistiko, da je bilo v zadnjih 2 letih ustvarjenih 98% vseh podatkov. To so veliki podatki. Vse ginormne naloge izpušnih podatkov, ki se zdaj ustvarjajo, je mogoče minirati (se spomnite rudarjenja podatkov?), Da pridobimo vpogled. V današnjem svetu visoke tehnologije bomo morda želeli ustvariti vpogled, za katere ne vemo, da obstajajo. Donald Rumsfeld jih je spretno označil za "neznane neznanke", stvari, za katere ne vemo, da ne vemo. V svetu psihologije se ta pojem imenuje okno Johari. Veste tisto osebo v prodaji, ki se ne zaveda dejstva, da že zaradi njihovega obstoja vsi okoli sebe želijo potegniti Petra Panja z najbližje stolpnice? Dejstvo, da se človek ne zaveda, kako moteč je - in dejstvo, da si ljudje okoli te osebe ne morejo natančno postaviti prsta zakaj - je "neznanka neznanka", saj nihče ne ve, zakaj je Rob v prodaji le velik , maščoba, gnusno pika. Kakorkoli že, gremo naprej.

Objavljeno na 7wData.be.