Dopo varie prove ho trovato molto utile l’utilizzo della libreria PDFBox di Apache.
E’ una libreria scritta in Java ma utilizzabile anche sui vostri progetti .NET e, devo dire, che funziona veramente bene.
Ecco un esempio su come leggere la prima pagina di un PDF contenente del testo OCR:
PDDocument pdDocument = null;
try
{
pdDocument = PDDocument.load(_currentPdfFileDto.FullName);
var stripper = new PDFTextStripper();
stripper.setSortByPosition(true);
stripper.setStartPage(1);
stripper.setEndPage(1);
stripper.getText(pdDocument);
Che Dio vi benedica
0x4d97a6bc, 0xc3bd, 0x49c0, 0x83, 0x82, 0x81, 0xee, 0x4c, 0x58, 0x83, 0x32
Rebitting Tags:
PDF
|
PDFBox
|
Varie