Tekst lezen in gescande documenten met Google

Google zegt dat het zijn OCR-technologie heeft verbeterd zodat de zoekmotor nu ook veel makkelijker en beter gescande documenten kan doorzoeken en ‘lezen’.

2008-11-04Comment

Het resultaat: meer informatie voor de surfer.
Die ingescande teksten, meestal in PDF, zijn in de eerste plaats de vele PDF-rapporten en –artikels die her en der op het Web verspreid staan.
Wedden dat daar op termijn ook weer juridische problemen van komen? Want niet elke ingescand of op een blog gepost PDF-document is natuurlijk van de poster zelf.
Het OCR-systeem moet ook heilzaam werken voor Google zijn eigen Google Books dienst.
Het bedrijf trof voor die dienst overigens vorige week een schikking met de ‘Authors Guild and Association of American Publishers’ waarbij deze een som van zomaar even 45 miljoen USD zal verspreiden onder uitgevers en auteurs die een ‘class-action’ zaak aanspanden tegen Google Books vanwege inbreuk op het kopieerrecht.
Google zal op zijn beurt 34,5 miljoen USD spenderen aan een op inschrijving gebaseerd systeem waarmee gebruikers bepaalde boeken die niet meer in print zijn maar waar wel nog kopieerrechten voor gelden, kunnen previewen, doorzoeken en aankopen.

Digimedia

Tekst lezen in gescande documenten met Google

Vaarwel Skyblog!

RTL Belgium gaat deze herfst van start met een nieuwe CEO en nieuwe ambities

Nieuwe oplossing om het engagement te verhogen in een "cookieless" wereld

68 miljard dollar in rook opgegaan door fraude bij digitale reclame

Digitale reclame krijgt een boost door "in-app" uitgaven

Pinterest lanceert een nieuwe augmented reality feature: "Try On For Home Decor"

Newsletter

Inside