Google Books and OCR

An Early Modern Italian Example

Final lines of page 1 of Nicolò Antonio Stelliola’s Il Telescopio (1627). Scanned from the copy at the British Museum.

Google’s OCR:

Correct Transcription:

Alladetta principale intenzione d’iſpecillo, vengono alligate per confequen
za molte ſpeculazioni verfanti nel genoviſiuo, neceſſarie per l’affinità della »
materiai & Perche nclla intelligenża delle cofe, fi hàneceſsità ്liും

Alla detta principale intenzione d’ispecillo, vengono alligate per conseguenza molte speculazioni versanti nel geno visivo, necessarie per l’affinità della materia; & perche nella intelligenza delle cose, si hà necessità dell’intelligenza

While Google’s OCR has improved dramatically in the last several years, the above example (from August 3, 2022) shows a few continuing weaknesses that have significant consequences for computational text analysis:

  • Spacing between words
  • Long s differentiation
  • Punctuation recognition
  • Handling catch words

For the time being, we will continue to manually correct this OCR to establish reliable full text versions of the books.