Lavorare con i PDF

Dopo varie prove ho trovato molto utile l’utilizzo della libreria PDFBox di Apache.
E’ una libreria scritta in Java ma utilizzabile anche sui vostri progetti .NET e, devo dire, che funziona veramente bene.

Ecco un esempio su come leggere la prima pagina di un PDF contenente del testo OCR:

PDDocument pdDocument = null;
try
{
    pdDocument = PDDocument.load(_currentPdfFileDto.FullName);
    var stripper = new PDFTextStripper();
    stripper.setSortByPosition(true);
    stripper.setStartPage(1);
    stripper.setEndPage(1);
    stripper.getText(pdDocument);

 

Che Dio vi benedica

0x4d97a6bc, 0xc3bd, 0x49c0, 0x83, 0x82, 0x81, 0xee, 0x4c, 0x58, 0x83, 0x32

Rebitting Tags: | |

posted @ giovedì 3 giugno 2010 13:30

Print

Comments on this entry:

# re: Lavorare con i PDF

Left by rossi at 03/06/2010 14:10
Gravatar
Veramente assurdo che per creare un pdf debba installare JAVA per fare funzionare la libreria!!!!! mah!

# re: Lavorare con i PDF

Left by Rossi at 03/06/2010 14:11
Gravatar
veramente assurdo che debba installare JAVA per usare una libreria per il PDF! mah!

# re: Lavorare con i PDF

Left by rossi at 03/06/2010 14:17
Gravatar
assurdo che debba installare JAVA per usare una libreria PDF!

# re: Lavorare con i PDF

Left by Alessandro Scardova at 03/06/2010 14:47
Gravatar
@rossi: PDFBox è utile nel contesto di Salvo specifico (PDF contententi un testo OCR). Per altre funzioni io trovo molto comodo PdfSharp.

# re: Lavorare con i PDF

Left by fabrzizio at 03/06/2010 17:57
Gravatar
> .. contente testo OCR

Non ho capito. PdfBox per quello che ne so, non è in grado di fare OCR, ma solo estrazione testuale di ciò che è gia testo in Pdf.

# re: Lavorare con i PDF

Left by Salvatore Di Fazio at 03/06/2010 20:08
Gravatar
Si infatti parlo di lettura di ocr in un file pdf :)
Comments have been closed on this topic.