cstore_fdw
cstore_fdw è una (delle molte) estensioni messe a disposizione dalla community di PostgreSQL, che permette di salvare in modalità colonnare i nostri dati all'interno della base dati di PostgreSQL.
Come funziona
Da come si può dedurre dalle iniziali "fdw" (foreign-data wrapper), questa estensione mette disposizione una nuova tipologia di tabelle con funzionalità e formato diverso da quello standard utilizzato in PostgreSQL. Per gestire i dati, le tabelle sono suddivise in due tipologie di file:
Data File
Qui trovano posto i dati. Questi vengono salvati nell'ordine in cui sono inseriti (vedremo più avanti le conseguenze di ciò). Ogni data file è unico e (a differenza dei data-file PostgreSQL) non viene suddiviso raggiunta una determinata dimensione. Al suo interno i dati vengono suddivisi in "Row Stripes" che raggruppano set di tuple (il numero di righe è configurabile) che costituiscono la nostra tabella. Le Row Stripes sono caratterizzate da tre sezioni:
-
Stripe Skip List: si possono considerare l'indice delle nostre tabelle, mantengono il valore minimo e massimo di ogni colonna contenuta all'interno del singolo Row Stripe. Questo permette di identificare (data una condizione where) se l'informazione risiede o meno all'interno del suddetto Row Stripe.
-
Stripe Data: qui vengono contenuti i dati più un paio di informazioni di supporto (esempio la presenza o meno di valori nulli). Inoltre questa sezione è soggetta a compressione se tale opzione è attiva.
-
Stripe Footer: qui vengono mantenute informazioni quali la dimensione dei vari Stripe Skip List e Stripe Data.
Per gestire le varie Row Stripes, contenute in un data file, viene aggiunto un secondo file di supporto o "Footer File", dove trovano posto le informazioni sulla dimensione e la posizione di ogni singolo Row Stripe.
Indicizzazione dei dati
Come accennato sopra, i dati all'interno del nostro data file sono raggruppati in set di righe e quindi indicizzati. Per ogni set di righe viene calcolato il minimo e il massimo valore contenuto nelle relative colonne. Questo comporta in fase di ricerca di identificare se una determinata informazione si trovi nel rowset che si sta analizzando, evitando di dover fare lunghe scansioni di ogni singolo Row Stripe. A tal proposito è consigliabile importare i dati nell'ordine con cui, realisticamente, verranno effettuate le ricerche.
Quindi se la nostra tabella conterrà:
(
dt_day timestamp without time zone NOT NULL, -- Data
list_id integer NOT NULL, --Identificativo di riga
count integer
)
e prevediamo di effettuare query che insisteranno sul campo dt_day e list_day, una buona soluzione sarebbe quella di caricare i dati già ordinati per dt_day, list_id, count. Questo comporta la riduzione di overlap delle informazioni su diverse Row Stripes e quindi aumentare il numero di Row Stripes esclusi in fase di scansione.
Installazione
L'installazione effettuata su CentOS 7 si è rivelata semplice e veloce.
-
Installate protobuf-c-devel, su CentOS 7 dovrete aggiungere il repository EPEL:
-
Aggiungete nel PATH il percorso dove si trova il file pg_config:
-
Infine eseguite il make install.
-
Aggiungete nel file postgresql.conf (dovrete riavviare il servizio di PostgreSQL):
Utilizzo
Fatta eccezione per alcune parametri (non obbligatori) che è possibile dichiarare in fase di inizializzazione delle nostre tabelle, non è necessario conoscere nulla di più delle normali istruzioni SQL, che già utilizziamo per inserire o estrarre dati.
Di seguito un esempio:
--Procediamo con l'installare l'estensione nel nostro database.
CREATE EXTENSION cstore_fdw;
--Creiamo il l'oggetto server per mezzo del quale utilizzeremo il 'cstore_fdw'
CREATE SERVER cstore_server FOREIGN DATA WRAPPER cstore_fdw;
--Creiamo la nostra tabella
CREATE FOREIGN TABLE cs_count_view_per_ads
( dt_day timestamp without time zone NOT NULL,
list_id integer NOT NULL,
count integer
)
SERVER cstore_server OPTIONS (compression 'pglz');
Qui mi sono limitato a dichiarare solo l'opzione "compress". Ma è possibile utilizzare anche le seguenti opzioni:
filename: indicando il percorso assoluto e il nome del file da utilizzare, è possibile specificare dove il file che conterrà i dati della tabella sarà salvato.
compression: le opzioni previste sono "none" e "pglz". Attiva o meno la compressione dati.
stripe_row_count: numero di righe che costituiscono una singola Row Stripe. Considerate che più è alto questo valore, migliori saranno le prestazioni, ma maggiore sarà la richiesta di memoria. Default 150.000.
block_row_count: numero di righe per singola colonna. Il default è 1.000. Modificando questo valore, si va a modificare la "risoluzione" (o granularità) del nostro indice. Più è basso più preciso sarà il nostro indice. Di contro aumenteranno le richieste di lettura del nostro Row Stripe e diminuirà il rapporto di compressione. Utilizzare valori bassi torna utile nel caso di avere dati poco ordinati e richieste che recuperano set di dati relativamente piccoli.
L'utilizzo di valori più alti, comporta una migliore compressione e una riduzione delle letture, ma (soprattutto se i dati non sono correttamente ordinati) potrebbero crescere il numero di overlap dei dati fra i vari Row Stripe (con conseguente riduzione delle prestazioni).
Ovviamente non c'è la configurazione perfetta, fate qualche prova, utilizzando set di dati il più simile possibile (per quantità e tipologia) a quelli che poi utilizzerete in produzione.
Per caricare la nostra tabella, possiamo utilizzare:
Infine ricordate di fare un ANALYZE della tabella (per aggiornare le statistiche).
Alcune considerazioni
Sulla nostra tabella, abbiamo caricato circa 295 milioni di righe.
count_view_per_ads (normale tabella PostgreSQL):
cs_count_view_per_ads:
Ovviamente il rapporto di compressione può variare in base alla tipologia e allo schema della tabella, in ogni caso i livelli di compressione sono sempre nell'ordine del 50% (o superiori) rispetto alla tabella originale. A questo bisogna aggiungere che non viene allocato spazio aggiuntivo per gli indici.
Per quanto riguarda le prestazioni vi invito a leggere qui:
https://www.citusdata.com/citus-products/cstore-fdw/cstore-fdw-quick-start-guide
Per la mia esperienza non ho riscontrato miglioramenti nei tempi di elaborazione delle query, in alcuni casi sono leggermente inferiori alle rispettive query che utilizzano normali tabelle con indici di PostgreSQL.
Inoltre va tenuto in considerazione alcune limitazioni:
-
non è possibile utilizzare istruzioni di INSERT INTO ... VALUES, DELETE e UPDATE
-
l'estensione non è disponibile per PostgreSQL per Windows.
Considerando le suddette limitazioni, utilizzare questa tipologia di tabelle può rivelarsi una valida soluzione nei casi in cui si ha a che fare con tabelle "in sola lettura" (time-series, log, storicizzazione dei dati, etc ...), dove inserire i dati e non dover provvedere a cancellarli.
Anche su tabelle di dimensioni relativamente può essere un'ottima soluzione.
Nel caso sia necessario effettuare cancellazioni periodiche, bisogna intervenire sulla tabella:
Riferimenti
Aggiornato
TaskUnZip, custom Task per SQL Server Integration Services, che permette di effettuare la compressione e decompressione dei file, all'interno di in package.
Novità per la versione 1.4.6.5:
- Aggiunto il supporto per file GZip, TAR e TAR-GZip.
- Migliorata la gestione delle cartelle all'interno dei file compressi. Adesso è possibile salvare i file con percorsi completi, relativi o senza cartelle.
- Sono state migliorate le performance di compressione e decompressione, riducendo il consumo di memoria.
Novità per la versione 1.5.1.0:
- Aggiunto il supporto per SQL SERVER 2014 (x86 e x64).
- Aggiunta -finalmente!- il setup per l'installazione delle librerie.
Qui: https://taskunzip.codeplex.com/
Scrivo questo post, perché magari risparmio a qualcuno la perdita di circa un ora di tempo e un principio di infarto... :)
Questa mattina aggiorno SVN alla versione 1.7. Rivedo gli script di backup, anche perché con la ver. 1.7 è stato introdotta una nuova utility -svnrdump- per eseguire il dump, e mi viene la brillante idea di utilizzare Powershell per eseguire gli script di backup e di verifica.
Realizzo un dump di prova per verificare che tutto sia ok e per sicurezza eseguo anche il restore. Il dump va a buon fine ... il restore non tanto. In un primo momento penso che sia dovuto al cambio di versione, ma prestando più attenzione noto che il dump è di dimensione quasi doppie rispetto al precedente. C'è qualcosa che non torna.
Esaminando il file di dump noto che il contenuto è formattato diversamente, quindi (per esclusione) riprovo a fare tutta la trafila senza utilizzare la Powershell, tutto torna a funzionare correttamente.
A questo punto mi sorge il dubbio che la Powershell abbia una modalità di funzionamento (per quanto riguarda i comandi in pipe) che risulta essere non compatibile con SVN e facendo una ricerca con Google il mio dubbio sembrerebbe essere confermato.
Farò altre indagini...
Lunedì avevo fatto l'ordine per acquistare un Kindle sul web site Amazon.com. Ho notato che ancora Amazon non ha messo a disposizione il Kindle qui in Italia
.
Detto questo ieri mi è stato consegnato in ufficio...
Il pacchetto che contiene il Kindle è interamente in cartone, spacchettato il contenuto è costituito dal suddetto Kindle, un cavetto USB e un breve manuale.
Essenziale.
Quello che mi ha colpito è stato che una volta spacchettato il lettore, noto che sul display è presente una scritta. In un primo momento pensavo che fosse un semplice foglio illustrativo e vado (o tento) per toglierlo, scoprendo che in verità il lettore era già acceso!!
Il display è davvero notevole! La lettura avviene in maniera assolutamente naturale e non risulta assolutamente "stressante" per gli occhi. Il peso è contenuto e sia le braccia che i polsi non ne risentono anche dopo qualche ora. Se poi si ha l'accortezza di regolare le opzioni che riguardano la visualizzazione dei font... il gioco è fatto.
Ho preso il 6 pollici.
Non sapendo se lo avessi trovato comodo ho voluto evitare di prendere il modello da 10', ma se da qui a qualche mese non riscontro grossi problemi probabilmente acquisterò anche il modello più grande.
Lo inauguro con due libri: "Metro 2033" e "Start Small, Stay Small: A Developer's Guide to Launching a Startup".
Alla prossima...