Big data: ecco come orientarsi tra data warehouse, data lake e data lakehouse

L’85% dei CEO esige dai manager senior di produrre informazioni data-driven su cui fondare le attività di innovazione, ha scritto IDC nel suo “FutureScape: Worldwide Future of Digital Innovation 2023 Predictions”. Nel 2024 il ruolo della conoscenza estratta dai dati è quanto mai attuale. La natura dei big data continua a cambiare, e una loro quota crescente è generata nel cloud: il 32% nel 2027, secondo le stime di “Worldwide IDC Global DataSphere Forecast, 2023-2027”, contro il 17,5% nel 2022. Proprio il cloud sta modificando le tecnologie del data management: la diffusione delle soluzioni public cloud – fondamentalmente, quelle dei grandi fornitori americani – spinge l’evoluzione dal data warehouse al data lake fino al data lakehouse. In ogni caso l’obiettivo è estrapolare conoscenza con tecniche che vanno dalla business intelligence (BI), agli analytics fino all’intelligenza artificiale (IA).

In generale, i CIO in Italia tendono a mantenere il data warehouse se i dati della loro azienda sono strutturati e in quantità non voluminose, mentre il data lake è la scelta più o meno obbligata per chi ha a che fare con dati non strutturati. In molti casi le due soluzioni si affiancano per rispondere alle esigenze di analisi e visualizzazione di entrambi i tipi di dati. Il data lake, per esempio, si presta alla manipolazione delle informazioni in tempo reale o ultra-reale, che sono il 22% dei nuovi dati creati, secondo IDC.

I dati in streaming, invece, che rappresentano il 75% del totale dei nuovi dati, sono destinati idealmente al Ddta lakehouse, il nuovo sistema di data management la cui adozione è facilitata dall’utilizzo del public cloud, come spiega Stefano Gatti, esperto del settore e curatore della newsletter LaCulturadelDato.

Dal data warehouse al data lake

Le due soluzioni del data warehouse e del data lake sono molto diverse tra loro, evidenzia Gatti. La prima riguarda il primo dei sistemi IT dell’era della manipolazione dal dato, con infrastrutture di supporto spesso ancora on-premise. In seguito, sull’onda del web 2.0, si è fatto strada il data lake ai fini di estrarre valore dai big data non strutturati. Ma la differenza è anche nella filosofia sottostante e negli obiettivi.

“Nel data warehouse prevale il metodo, si analizzano dati di business, finanziari, di prodotto e simili, che richiedono maggiore precisione. Nel data lake, invece, prevale la logica di innovazione”, afferma Gatti. “Di conseguenza, nell’ambito della gestione dei dati a fini analitici, il data warehouse ha un focus più su applicazioni di reporting, mentre il data lake si configura piuttosto come un laboratorio di sperimentazione per data scientist e data analyst, adatto ad aree creative, come il marketing. Entrambe le soluzioni oggi possono mostrare dei limiti: nel data warehouse il campo è molto circoscritto, mentre nel data lake si rischia di perdere la direzione dello sforzo di innovazione e la capacità di arrivare a un’applicazione di valore su larga scala”.

Il data lakehouse, che unisce i pregi e supera i limiti dei due modelli, rappresenta secondo Gatti una “evoluzione darwiniana di data warehouse e data lake”. Ma per i CIO italiani non si prescinde dalla pratica, ovvero dalla domanda chiave: di che cosa ho veramente bisogno?

Il data lake al servizio del business

Nel caso di Haleon (che in Italia distribuisce farmaci tramite propri centri logistici, magazzini di terze parti e un team di vendita), la scelta dell’IT è di gestire i dati in un data lake in cloud globale (l’azienda è una multinazionale), perché i dati sono di fonti e formati disparati. A questo data lake su Microsoft Azure attingono i dipartimenti di business per estrarre le informazioni utili alle loro operazioni, sia quotidiane che di lungo periodo, come le attività di analisi. Qui si inserisce il lavoro del gruppo IT italiano diretto da Saverio La Pietra, Digital & Tech Senior Partner di Haleon in Italia.

“In ogni mercato in cui operiamo il team locale di data analyst sviluppa dei connettori per l’accesso ai dati nel cloud in base alle specifiche richieste”, spiega La Pietra. “Al momento sfruttiamo i dati soprattutto per le aree marketing, vendita, finanza e demand planning”.

Per esempio, in uno dei progetti condotti da La Pietra e dal suo team, l’esigenza è arrivata dal marketing, che aveva necessità di organizzare con maggiore efficienza i tanti report interni, voluminosi e in formati disparati, che vengono prodotti regolarmente dagli analisti distribuiti sui vari mercati locali con i dati utili a decidere quando attivare le campagne di comunicazione. Il team di La Pietra ha accolto la richiesta avviando un progetto di centralizzazione dei dati per migliorare il processo.

“Abbiamo iniziato conducendo una fase di discovery, che è durata 4-5 mesi ed è stata abbastanza laboriosa, perché i report erano tanti e occorreva capire, insieme alle persone del marketing e ai data analyst, quali fossero le intersezioni e le ridondanze in questi documenti”, racconta La Pietra. “In seguito abbiamo ottimizzato i dati dei report e adesso stiamo centralizzando tutto in un unico repository, o hub, che speriamo di rendere operativo nella prima metà del 2024 e dove ogni persona del marketing troverà i dati che le servono in base al suo profilo”. E su cui potrà lavorare anche in autonomia, ovvero in modalità self-service.

I data analyst e il paradigma self-service

Nella filosofia di Haleon la gestione dei dati ha l’obiettivo di evitare una sovrabbondanza di informazioni che si traduce in perdita di tempo. Snellire le operazioni quotidiane vuol dire essere più competitivi: l’azienda è una GDO del pharma e deve confrontarsi con altri attori della vendita al dettaglio e dell’e-commerce che fanno della velocità e del prezzo la loro forza. Un altro elemento fondamentale della strategia è portare la conoscenza IT nei team di business con le figure dei data analyst.

“I data analyst si occupano di predisporre la consultazione e l’approfondimento dei dati con il prodotto di business Intelligence”, afferma La Pietra. “Non sono figure del dipartimento IT, bensì personale interno ai gruppi di business. Io li chiamo ‘shadow IT’: tecnici esperti inseriti nelle funzioni aziendali che conoscono il significato del dato e sanno come applicarlo a specifici usi”, spiega La Pietra.

Il loro ruolo è cruciale: fare da collegamento tra Big Data e risultati di business. Grazie alla BI, infatti, vengono sviluppate le dashboard di consultazione e analisi che sono messe a disposizione dei colleghi delle varie funzioni. Alcune persone in azienda – dopo una specifica attività di formazione – sono in grado di crearsi questi prodotti in autonomia, predisponendo dei report dettagliati sul loro specifico settore, come gli antidolorifici OTC, gli integratori multivitamici o i prodotti per l’igiene orale.

Data lakehouse: quando è la soluzione “giusta”

Oggi l’ampia diffusione del public cloud, con la sua infrastruttura moderna, facilita la creazione e la manutenzione degli ambienti di data lakehouse, dove si fondono la gestione ordinata tipica del data warehouse e il lavoro di innovazione del data analyst e del data scientist tipica del data lake, evidenzia Gatti.

“Il public cloud aiuta ad abbattere i costi soprattutto in termini di know-how, perché comunque l’infrastruttura richiesta dal data lakehouse è complessa”, chiarisce l’esperto. “Oggi i CIO tendono a tenere sia un data warehouse che un data lake, ma alcune aziende stanno semplificando la loro struttura di gestione dei dati ricorrendo solamente al data lakehouse, almeno nel public cloud, e secondo me questa scelta è più efficiente. L’ideale sarebbe avere una sola struttura per gestire i dati per scopi analitici e il data lakehouse ha la duttilità necessaria. Ma, ovviamente, dipende dal punto di partenza”.

Infatti, se un’azienda già ha un data warehouse e un data lake on-premise e la strategia prevede la migrazione al cloud, quest’ultima può essere l’occasione per passare in modo efficiente al data lakehouse. Se, al contrario, non si può migrare tutto al cloud perché ci sono prodotti legacy che devono rimanere on-premises, “si può cominciare realizzando un data lakehouse per alcuni prodotti la cui migrazione al cloud è giustificata, considerato che nel cloud la computazione costa più dello storage”, indica Gatti. “Poi, se il risultato del data lakehouse è soddisfacente, si può estendere la migrazione ad altri prodotti, riducendo il ruolo del database on-premises, che ha costi inferiori sulla computazione ma maggiori per investimento e manutenzione”.

Il futuro del data Management

I CIO sono sulla stessa lunghezza d’onda: se l’IT è già strutturato per data warehouse e data lake, si tende a rimandare il passaggio al data lakehouse, in quanto esige un cambio di architettura e, quindi, un investimento. Questo va giustificato con un risparmio sui costi, un aumento delle prestazioni e, soprattutto, un’esigenza di business, per esempio, se si vogliono integrare applicazioni di IA facendo leva sulle competenze del cloud provider.

Secondo Gartner (“Future of Data Architecture”), infatti, il futuro va verso un uso sempre più esteso degli Analytics su ogni fonte e tipologia di dati e verso l’applicazione dell’IA. Elementi cruciali di questa evoluzione saranno la condivisione delle informazioni con l’intero ecosistema di partner, fornitori e utenti e la democratizzazione dell’accesso ai dati per tutte le funzioni di business in base al paradigma degli “analytics self-service”.

Big Data, Data Management