Uimaan Data järvessä – Pitääkö hypätä jo järveen uimaan?

Invenco Data tietovarastointi analytiikka

Kävimme tuossa taannoin kuuntelemassa Barry Devlinin erittäin mielenkiintoisen luennon Data Lake -aiheen tiimoilta. Tilaisuuden järjesti TDWI Finland. Mutta missä ja mikä on Data Lake eli suomalaisittain Data järvi?

Yksinkertaisimmillaan Data Lake voidaan kuvata tietojen laajaksi säilytysaltaaksi, eräänlaiseksi Big Data maailman tietovarastoksi. Se on rakenteiltaan ja muodoltaan perinteistä tietovarastoa vapaampi ja soveltuukin hyvin esimerkiksi SOME -maailman, web -tietojen, NoSQL -kantojen tai IoT -datan tallentamiseen. Tiedon muodolle ja rakenteille ei Data Lake maailmassa tarvitse antaa paljoa aikaa, jolloin tiedon lataaminen sinne on melko nopeaa ja helppoa ilman erillisen logiikan rakentamista. Tallennusrakenteena on usein tietokantamaailmaa halvempi tiedostopohjainen media kuten Hadoop, mutta perinteinen tietokanta selviää tarvittaessa tässäkin tehtävässä, jos kapasiteetti muuten riittää.

Miten Data Lake eroaa tietovarastosta – kumpi on parempi?

Barry käytti tietovaraston ja Data Laken eroista oivaa vertausta – tietovarasto on kuin pullollinen puhdistettua vettä, kun taas Data Lake on järvi luonnollisemmassa tilassaan. Data Lake ja tietovarasto eivät ole toisensa poissulkevia ratkaisuita vaan pikemminkin toisiaan täydentäviä. Data järvessä tietoa ei myöskään yleensä ole puhdistettu ja määrämuotoistettu samalla tapaa kuin tietovarastossa, joten analyysien ja tietovastatusten pitääkin nähdä olevan enemmän trendejä tai suuntaa antavia kuin eksakteja/tarkkoja totuuksia.

Tietovarasto taas pyrkii nimenomaan tarkkuuteen ja tiedon esittämiseen tarkoilla, numeerisilla arvoilla esimerksi talous- ja myynninraportoinnin muodossa. Molemmille käyttätavoille on monessa organisaatiossa tarvetta. Trendit ja suuntaviivast saadaan nopeasti Data Lake ympäristöstä tilanteisiin, joissa etenkin haetaan liiketoiminnalle uutta suuntaa tai vahvistuksia näkemyksille ja ennusteille. Käytännössä organisaatio tarvitsee molemmat lähestymistavat – Data Lake ei korvaa tietovarastoa ja päinvastoin.

Data Lake hyödyntäminen

Hyödyntämismielessä Data Lake on omimmillaan analyytikoille ja kehittyneille käyttäjille, joilla on tarvetta löytää vastauksia kysymyksiin nopeasti. Välineinä on useinkin paremmin tilastotieteitä tukevat välineet, Big Data -välineet ja erilaiset monipuoliset skriptikielet kuten R ja Python. Lisäksi käyttäjällä tulee olla melko hyvä käsitys niistä tiedoista ja rakenteista, jotka Data Lakeen on tallennettu. Ihan perinteisen loppukäyttäjän tietovarastoksi Data Lakesta ei siis ole sen vapaamman muotoilun ja vaativampien välineiden vuoksi.

Toisaalta hyödyntämiselle yksi näkökulma on myös tiedon suojaaminen – Data Lake on pitkäli strukturoimatonta, joten sinne on melko vaikeaa rakentaa yksiselitteisiä suojausmekanismeja – toisin kuin tietovarastossa. Tästä seuraa se, että tiedon hyödyntäjien vastuulle jää tulosten jakamisen kautta, kuka tietoa saa nähdäkseen ja missä laajuudessa. Usein myöskin tulosten tulkitsemisessa on hyödyntäjällä suuri vastuu verrattuna tietovaraston hyödyntäjälllä.

Prosessoinnin käsittely on myös yksi iso ero tietovaraston ja Data Lake ratkaisun välillä. Tietovarastossa ETL-prosesseissa ladataan ja muokataan tietoa ennen sen tallentamista tietovarastoon. Tässä vaiheessa tieto puhdistuu, jalostuu ja määrämuotoistuu tarpeiden mukaan. Data Lake taas ottaa tiedot vastaan melko raakamuotoisena ja prosssointi tapahtuu vasta tiedon hyödyntämisvaiheessa. Tämä lähestymistapa nopeuttaa lataamista mutta tuo vastuun mahdollisista tietojen prosessoinnista tai siivoamisesta tiedon hyödyntäjälle.

Sopisiko Data Lake minun organisaatiolleni ja pitääkö lähteä jo uimaan?

Data Lake on osa ”Big Data hypetystä”, joka on ollut vallalla jo muutamia vuosia. Sitä ei kannata ottaa käyttöön vain tietovaraston ongelmien vuoksi – sille on syytä olla todellinen tarve. Usein Big Data nähdään ratkaisuiksi asioihin, joissa Suomessa ei välttämättä vielä tarvita Data Lake ratkaisua. Tämä myös selvisi, kun tilaisuudessa kyseltiin kokemuksia Data Lakesta. Moni käsi ei noussut. Jos kuitenkin tietovarasto reaktiokyky ja strukturoimattoman tiedon analysointitarpeet nousevat merkittäväksi niin Data Lake on tullut teillekin ajankohtaiseksi ja uimaan kannattaa lähteä, mutta varmaan aluksi vähän varovaisesti rantoja pitkin kokeillen. Siinä uimisessa Invenco voi olla myös apuna!

Jaa

Ota yhteyttä