sqlog

sql & co
posts - 78, comments - 14, trackbacks - 1

sabato 14 novembre 2015

Si cambia piattaforma...

Dopo quasi 10 anni è arrivato il momento di fare una cosa su cui meditavo da un po' di tempo.

qui: http://donotexists.blogspot.it/ dove potrete continuarmi a seguire.

posted @ sabato 14 novembre 2015 18.39 | Feedback (0) | Filed Under [ Varie ]

lunedì 24 agosto 2015

PostgreSQL & cstore_fdw

cstore_fdw


cstore_fdw è una (delle molte) estensioni messe a disposizione dalla community di PostgreSQL, che permette di salvare in modalità colonnare i nostri dati all'interno della base dati di PostgreSQL.



Come funziona


Da come si può dedurre dalle iniziali "fdw" (foreign-data wrapper), questa estensione mette disposizione una nuova tipologia di tabelle con funzionalità e formato diverso da quello standard utilizzato in PostgreSQL. Per gestire i dati, le tabelle sono suddivise in due tipologie di file:


Data File


Qui trovano posto i dati. Questi vengono salvati nell'ordine in cui sono inseriti (vedremo più avanti le conseguenze di ciò). Ogni data file è unico e (a differenza dei data-file PostgreSQL) non viene suddiviso raggiunta una  determinata  dimensione. Al suo interno i dati vengono suddivisi in "Row Stripes" che raggruppano set di tuple (il numero di righe è configurabile) che costituiscono la nostra tabella. Le Row Stripes sono caratterizzate da tre sezioni:

  • Stripe Skip List: si possono considerare l'indice delle nostre tabelle, mantengono il valore minimo e massimo di ogni colonna contenuta all'interno del singolo Row Stripe. Questo permette di identificare (data una condizione where) se l'informazione risiede o meno all'interno del suddetto Row Stripe.

  • Stripe Data: qui vengono contenuti i dati più un paio di informazioni di supporto (esempio la presenza o meno di valori nulli). Inoltre questa sezione è soggetta a compressione se tale opzione è attiva.

  • Stripe Footer: qui  vengono mantenute informazioni quali la dimensione dei vari Stripe Skip List e Stripe Data.


Per gestire le varie Row Stripes, contenute in un data file, viene aggiunto un secondo file di supporto o "Footer File", dove trovano posto le informazioni sulla dimensione e la posizione di ogni singolo Row Stripe.


Indicizzazione  dei dati


Come accennato sopra, i dati all'interno del nostro data file sono raggruppati in set di righe e quindi indicizzati. Per ogni set di righe viene calcolato il minimo e il massimo valore contenuto nelle relative colonne. Questo comporta in fase di ricerca di identificare se una determinata informazione si trovi nel rowset che  si sta analizzando, evitando di dover fare lunghe scansioni di ogni singolo Row Stripe. A tal proposito è consigliabile importare i dati nell'ordine  con cui, realisticamente, verranno effettuate le ricerche.

Quindi se la nostra tabella conterrà:


(

dt_day timestamp without time zone NOT NULL, -- Data

list_id integer NOT NULL,    --Identificativo di riga

count integer

)


e prevediamo di effettuare query che insisteranno sul campo dt_day e list_day, una buona soluzione sarebbe quella di caricare i dati già ordinati per dt_day, list_id, count. Questo comporta la riduzione di overlap delle informazioni su diverse Row Stripes e quindi aumentare il numero di Row Stripes esclusi in fase di scansione.


Installazione


L'installazione effettuata su CentOS 7 si è rivelata semplice e  veloce.


  • Installate protobuf-c-devel, su CentOS 7 dovrete aggiungere il repository EPEL:

    • sudo yum install protobuf-c-devel

  • Aggiungete nel PATH il percorso dove si trova il file pg_config:

    • PATH=/usr/local/pgsql/bin/:$PATH

  • Infine eseguite il make install.

  • Aggiungete nel file postgresql.conf (dovrete  riavviare il servizio di PostgreSQL):

    • shared_preload_libraries = 'cstore_fdw'


Utilizzo


Fatta  eccezione per alcune parametri (non obbligatori) che è possibile dichiarare in fase di inizializzazione delle nostre tabelle, non è necessario conoscere nulla di più delle normali istruzioni SQL, che già utilizziamo per inserire o estrarre dati.


Di seguito un esempio:


--Procediamo con l'installare l'estensione nel nostro database.

CREATE EXTENSION cstore_fdw;       


--Creiamo il l'oggetto server per mezzo del quale utilizzeremo il 'cstore_fdw'

CREATE SERVER cstore_server FOREIGN DATA WRAPPER cstore_fdw;


--Creiamo la nostra tabella

CREATE FOREIGN TABLE cs_count_view_per_ads

(    dt_day timestamp without time zone NOT NULL,

list_id integer NOT NULL,

count integer

)

SERVER cstore_server OPTIONS (compression 'pglz');


Qui mi sono limitato a dichiarare solo l'opzione "compress". Ma è possibile utilizzare anche le seguenti opzioni:


filename: indicando il percorso assoluto e il nome del file da utilizzare, è possibile specificare dove il file che conterrà i dati della tabella sarà salvato.

compression: le opzioni previste sono "none" e "pglz". Attiva o meno la  compressione  dati.

stripe_row_count: numero di righe che costituiscono una singola Row Stripe. Considerate  che più è alto questo valore, migliori saranno le prestazioni, ma maggiore sarà la richiesta di memoria. Default  150.000.

block_row_count: numero di righe per singola colonna. Il default è 1.000. Modificando questo valore, si va a modificare la "risoluzione" (o granularità) del nostro indice. Più è basso più preciso sarà il nostro indice. Di contro aumenteranno le richieste di lettura del nostro Row Stripe e diminuirà il rapporto di compressione. Utilizzare valori bassi torna utile nel caso di avere dati poco ordinati e richieste che recuperano set di dati relativamente piccoli.

L'utilizzo di valori più alti, comporta una  migliore compressione e una riduzione delle letture, ma (soprattutto se i dati non sono correttamente ordinati) potrebbero crescere il numero di overlap dei dati fra i vari Row Stripe (con conseguente riduzione delle prestazioni).

Ovviamente non c'è la configurazione  perfetta, fate qualche prova, utilizzando set di dati il più simile possibile (per quantità e tipologia) a quelli che poi utilizzerete in produzione.


Per caricare la nostra tabella, possiamo utilizzare:

  • il comando COPY

  • INSERT INTO ... SELECT ... FROM


Infine ricordate  di fare un ANALYZE della tabella (per aggiornare le statistiche).


Alcune considerazioni


Sulla nostra tabella, abbiamo caricato circa 295 milioni di righe.


count_view_per_ads (normale tabella PostgreSQL):

  • righe: 295M

  • dimensione tabella: 12GB

  • dimensione indici (dt_day, list_id): 9GB


cs_count_view_per_ads:

  • righe: 295M

  • dimensioni tabella: 1.3GB

Ovviamente il rapporto di compressione può variare in base alla tipologia e allo schema della tabella, in ogni caso i livelli di compressione sono sempre nell'ordine del 50% (o superiori) rispetto alla tabella originale. A questo bisogna aggiungere che non viene allocato spazio aggiuntivo per gli indici.


Per quanto riguarda le prestazioni vi invito a leggere qui:

https://www.citusdata.com/citus-products/cstore-fdw/cstore-fdw-quick-start-guide


Per la mia esperienza non ho riscontrato miglioramenti nei tempi di elaborazione delle query, in alcuni casi sono leggermente inferiori alle rispettive query che utilizzano normali tabelle con indici di PostgreSQL.


Inoltre va tenuto in considerazione alcune limitazioni:

  • non è possibile utilizzare istruzioni di INSERT INTO ... VALUES, DELETE e UPDATE

  • l'estensione non è disponibile per PostgreSQL per Windows.


Considerando le suddette limitazioni, utilizzare questa tipologia di tabelle può rivelarsi una valida soluzione nei casi in cui si ha a che fare con tabelle "in sola lettura" (time-series, log, storicizzazione dei dati, etc ...), dove inserire i dati e non dover provvedere a cancellarli.

Anche su tabelle di dimensioni relativamente può essere un'ottima  soluzione.

Nel caso sia necessario effettuare  cancellazioni periodiche, bisogna intervenire sulla tabella:

  • generando una  nuova tabella ed eliminando quella vecchia

  • lavorando con le tabelle partizionate


Riferimenti


posted @ lunedì 24 agosto 2015 18.04 | Feedback (0) | Filed Under [ PostgreSQL ]

domenica 29 marzo 2015

Upgrade TaskUnZip for SSIS 1.4.6.5 e 1.5.1.0 (beta)

Aggiornato TaskUnZip, custom Task per SQL Server Integration Services, che permette di effettuare la compressione e decompressione dei file, all'interno di in package.

Novità per la versione 1.4.6.5:
  • Aggiunto il supporto per file GZip, TAR e TAR-GZip.
  • Migliorata la gestione delle cartelle all'interno dei file compressi. Adesso è possibile salvare i file con percorsi completi, relativi o senza cartelle.
  • Sono state migliorate le performance di compressione e decompressione, riducendo il consumo di memoria.

Novità per la versione 1.5.1.0:
  • Aggiunto il supporto per SQL SERVER 2014 (x86 e x64).
  • Aggiunta -finalmente!- il setup per l'installazione delle librerie.

Qui: https://taskunzip.codeplex.com/

 

posted @ domenica 29 marzo 2015 19.19 | Feedback (0) |

domenica 2 novembre 2014

PostgreSQL sull'uso della funzione row_number()

Qualche giorno fa era nata la necessità di dovere modificare una funzione in PostgreSQL rendendo parametrizzatile il tipo di ordinamento (ASC o DESC) finale del set di dati restituito in output. [...]

posted @ domenica 2 novembre 2014 11.30 | Feedback (0) | Filed Under [ PostgreSQL ]

martedì 29 ottobre 2013

Best Practices Speeding Up Web Site

Interessante articolo ricco di spunti per migliorare le performance di un website: http://developer.yahoo.com/performance/rules.html

posted @ martedì 29 ottobre 2013 13.22 | Feedback (0) |

martedì 29 gennaio 2013

Bootstrap

Interessante libreria Javascript/CSS ricca di funzionalità.

http://twitter.github.com/bootstrap/

posted @ martedì 29 gennaio 2013 23.05 | Feedback (0) |

Upgrade TaskUnZip for SSIS 1.4.0.0

Aggiornato il tool TaskUnZip for SSIS.
Permette di gestire, comprimere e decomprimere file zip all'interno di un flusso di SSIS.

Per maggiori informazioni qui: http://taskunzip.codeplex.com/.

Ver. 1.4.0.0
  • add option overwrite destination file zip
  • other minor fix
  • update batch file
  • Remove Support version for SQL Server 2008 / R2 (use ver. 1.3.0.1).

posted @ martedì 29 gennaio 2013 23.02 | Feedback (0) |

sabato 18 febbraio 2012

Transactional NTFS (TxF) .NET

Da qualche settimana nel -poco- tempo libero porto avanti questa piccola e semplice libreria che permette di interagire con le Windows Api che gestiscono le transazioni a livello di file-system.

Per maggiori info su quali operazioni sono supportate, vi rimando alla relativa pagina su Codeplex:

http://txfnet.codeplex.com/
http://txfnet.codeplex.com/documentation

Vi segnalo anche un paio di link per approfondire l’argomento:

http://msdn.microsoft.com/en-us/magazine/cc163388.aspx
http://msdn.microsoft.com/en-us/library/windows/desktop/bb968806%28v=vs.85%29.aspx
http://msdn.microsoft.com/en-us/library/windows/desktop/aa363764%28v=vs.85%29.aspx

posted @ sabato 18 febbraio 2012 20.50 | Feedback (2) |

domenica 11 dicembre 2011

Upgrade TaskUnZip for SSIS

Ho aggiornato il tool TaskUnZip for SSIS. Permette di gestire, comprimere e decomprimere file zip all'interno di un flusso di SSIS.

Per maggiori informazioni qui: http://taskunzip.codeplex.com/.

Ver. 1.3.0.1
  • Add: Support SQL SERVER 2008 and SQL SERVER 2008 R2.
  • Add: installation batch file for x86 e x64 (tnx JohannesHoppe).
  • Upgrade sample with foreach loop task.
  • Upgrade SharpZipLib for .NET Framework ver. 0.86.
  • Upgrade solution to Visual Studio 2010.
  • Remove version for SQL Server 2005 (use ver. 1.2.0.0).


posted @ domenica 11 dicembre 2011 18.56 | Feedback (1) |

un paio di libri...

Consiglio un paio di libretti per rilassare il neurone durante le ferie natalizie...

Arduino. La guida ufficiale: l’ho quasi finito di leggere. Un libro che vi introduce nel fantastico mondo di Arduino e dell’elettronica. L’autore (tra le altre cose ingegnere che ha partecipato alla progettazione di Arduino stesso) è molto bravo nell’accompagnare il lettore capitolo dopo capitolo nell’approfondire le varie tematiche.

http://www.amazon.it/Arduino-guida-ufficiale-Informatica-Massimo/dp/8848124240/ref=sr_1_1?ie=UTF8&qid=1323597891&sr=8-1

iWoz: Computer Geek to Cult Icon e (ovviamente) Steve Jobs: ho già ad entrambi dato una veloce occhiata e devo dire che trovo quello di “Woz” sicuramente più interessante. Forse per il modo di approcciare la discussione o per gli argomenti trattati... in ogni caso fra i due ad un primo impatto preferisco quello di Steve Wozniak.

http://www.amazon.it/iWoz-Computer-Geek-Cult-ebook/dp/B000VUCIZO/ref=sr_1_3?ie=UTF8&qid=1323599582&sr=8-3

http://www.amazon.it/Steve-Jobs-Italian-Edition-ebook/dp/B00606NPIW/ref=sr_1_4?ie=UTF8&qid=1323598481&sr=8-4

Questi ultimi due libri sono disponibili anche per Kindle.

posted @ domenica 11 dicembre 2011 11.49 | Feedback (1) |

sabato 15 ottobre 2011

Powershell e Svn Dump

Scrivo questo post, perché magari risparmio a qualcuno la perdita di circa un ora di tempo e un principio di infarto... :)

Questa mattina aggiorno SVN alla versione 1.7. Rivedo gli script di backup, anche perché con la ver. 1.7 è stato introdotta una nuova utility -svnrdump- per eseguire il dump, e mi viene la brillante idea di utilizzare Powershell per eseguire gli script di backup e di verifica.

Realizzo un dump di prova per verificare che tutto sia ok e per sicurezza eseguo anche il restore. Il dump va a buon fine ... il restore non tanto. In un primo momento penso che sia dovuto al cambio di versione, ma prestando più attenzione noto che il dump è di dimensione quasi doppie rispetto al precedente. C'è qualcosa che non torna.

Esaminando il file di dump noto che il contenuto è formattato diversamente, quindi (per esclusione) riprovo a fare tutta la trafila senza utilizzare la Powershell, tutto torna a funzionare correttamente.

A questo punto mi sorge il dubbio che la Powershell abbia una modalità di funzionamento (per quanto riguarda i comandi in pipe) che risulta essere non compatibile con SVN e facendo una ricerca con Google il mio dubbio sembrerebbe essere confermato.

Farò altre indagini...

posted @ sabato 15 ottobre 2011 14.17 | Feedback (4) |

sabato 10 settembre 2011

FlyJSONP

Un utile libreria per gestire richieste (get e post) cross-domain via json.

http://alotaiba.github.com/FlyJSONP/

posted @ sabato 10 settembre 2011 22.16 | Feedback (0) |

lunedì 5 settembre 2011

Python 3.2.2

Rilasciato ... http://www.python.org/download/releases/3.2.2/

posted @ lunedì 5 settembre 2011 20.48 | Feedback (0) |

giovedì 1 settembre 2011

Python & .NET

E' stato rilasciato l'IDE per Visual Studio 2010 per Python:

http://pytools.codeplex.com/

posted @ giovedì 1 settembre 2011 21.41 | Feedback (0) |

giovedì 25 agosto 2011

Amazon Kindle!

Lunedì avevo fatto l'ordine per acquistare un Kindle sul web site Amazon.com. Ho notato che ancora Amazon non ha messo a disposizione il Kindle qui in Italia .
Detto questo ieri mi è stato consegnato in ufficio...
Il pacchetto che contiene il Kindle è interamente in cartone, spacchettato il contenuto è costituito dal suddetto Kindle, un cavetto USB e un breve manuale.
Essenziale.

Quello che mi ha colpito è stato che una volta spacchettato il lettore, noto che sul display è presente una scritta. In un primo momento pensavo che fosse un semplice foglio illustrativo e vado (o tento) per toglierlo, scoprendo che in verità il lettore era già acceso!!

Il display è davvero notevole! La lettura avviene in maniera assolutamente naturale e non risulta assolutamente "stressante" per gli occhi. Il peso è contenuto e sia le braccia che i polsi non ne risentono anche dopo qualche ora. Se poi si ha l'accortezza di regolare le opzioni che riguardano la visualizzazione dei font... il gioco è fatto.

Ho preso il 6 pollici.
Non sapendo se lo avessi trovato comodo ho voluto evitare di prendere il modello da 10', ma se da qui a qualche mese non riscontro grossi problemi probabilmente acquisterò anche il modello più grande.
Lo inauguro con due libri: "Metro 2033" e "Start Small, Stay Small: A Developer's Guide to Launching a Startup".

Alla prossima... 

posted @ giovedì 25 agosto 2011 19.03 | Feedback (0) |

Powered by: