Google scopre l’OCR e lo applica alla ricerca dei contenuti

Ricercando alcuni documenti in rete mi sono trovato davanti ad una novità.
esempiogoogle
Cosa c’è di strano? Si tratta di un documento PDF con una scansione di un vecchio libro, per la quale google ha applicato l’OCR. Probabilmente si tratta dell’OCR Tesseract, originariamente sviluppato dagli Hewlett Packard Laboratories tra il 1985 ed il 1995 che dopo anni passati nel dimenticatoio ed una tappa presso l’Information Science Research Institute UNLV, è stato preso in mano da Google che lo ha redistribuito in forma open source.
Google quindi estende l’indicizzazione, ed è cosa buona!