Apache Iceberg AWS:ssä

⚠️ Tämä teksti on tekoälyn tekemä käännös alkuperäisestä englanninkielisestä sisällöstä.

Osallistuimme AWS Immersion Day -tapahtumaan aiheena Data Foundation with Apache Iceberg on AWS. Tässä yhteenveto päivän opeista ja ajatuksia siitä, miten Iceberg voisi hyödyttää asiakasprojektejamme.

Mikä on Apache Iceberg?

Apache Iceberg on avoin taulukkoformaatti suurten tietoaineistojen käsittelyyn pilviobjektitallennuksessa, kuten Amazon S3:ssa. Suurin hyöty on SQL-kyselytuki sarakkeittaisissa tiedostomuodoissa tallennetulle datalle. Toisin kuin monet muut ratkaisut, Iceberg tukee skeeman kehitystä ilman sivuvaikutuksia sekä ACID-transaktioita.

Yhdistelmä Iceberg + S3 + Athena mahdollistaa täysin palvelimettoman SQL-ympäristön suurille datamäärille; iso etu, jos ei halua ylläpitää hajautettuja tietokantaklustereita.

AWS Experience -työpaja

Työpaja yhdisti todellisia asiakasongelmia ja käytännön harjoituksia Icebergin käytöstä AWS:n kanssa. Kokeilimme integraatioita Athenan ja EMR:n kanssa ja saimme tuntumaa siihen, millaisia työnkulkuja Iceberg tukee.

Koska Python on lempikielemme, kokeilimme myös työpajan esimerkkikatalogia PyIcebergin ja Polarsin kanssa. Iceberg vaikuttaa helpolta integroida olemassa oleviin Python-työnkulkuihimme.

Mahdolliset käyttötapaukset

Suurin osa asiakkaidemme datavaatimuksista hoituu PostgreSQL:llä, ja se onkin yleensä varma valinta. Silti on käyttötapauksia, joissa Iceberg voisi olla oikea valinta. Joillakin asiakkaillamme datamäärät pyörivät petatavuissa, ja juuri sellainen mittakaava on Icebergille kuin luotu. Varsinkin kun kyselyiden luotettavuus ja skeeman kehitys ovat tärkeämpiä kuin hakunopeus, Iceberg on varteenotettava vaihtoehto.

Esimerkiksi yhdessä projektissamme käsittelemme satoja gigatavuja sensoritietoja CSV-tiedostoina, ja datamäärä voi kymmenkertaistua. Siinä vaiheessa olisi järkevää muuntaa raakadata Parquet-muotoon S3:een, jolloin kyselyt skaalautuvat ilman palvelinpohjaisia tietokantaklustereita.

Toinen hyvä skenaario on EU:n yleisen tietosuoja-asetuksen “oikeus tulla unohdetuksi”. Icebergissä on erillinen metadatakerros, joka seuraa skeemamuutoksia ja poistoja. Sen ansiosta yksittäisen rivin poistaminen onnistuu helposti jopa valtavista tietoaineistoista. Aiemmat ratkaisut kuten Apache Hive vaativat partitiotason uudelleenkirjoituksia, mikä tulee kalliiksi sekä suorituskyvyn että kustannusten osalta. Tämä on erityisen tärkeää EU-pohjaisten asiakasvaatimusten kannalta.

Sopiiko Iceberg teille?

Tarvitseeko teidän tehdä liiketoimintapäätöksiä suurten datamäärien perusteella? Voiko skeema muuttua tulevaisuudessa? Onko datanne jo Parquet-muodossa? Silloin Icebergiä kannattaa harkita, varsinkin jos käytätte jo AWS:ää.

Ottakaa yhteyttä osoitteeseen info@interjektio.fi, niin tutkimme yhdessä ratkaisuja datan tallennus- ja käsittelytarpeisiinne — olipa kyseessä Iceberg tai jokin muu järjestelmä, kuten ikisuosikkimme PostgreSQL.

Apache Iceberg AWS:ssä

Mikä on Apache Iceberg?

AWS Experience -työpaja

Mahdolliset käyttötapaukset

Sopiiko Iceberg teille?

Pyydä tarjous tai jätä viesti