maandag 12 oktober 2009

Het Nieuwe Zoeken

Google Book Search kreeg al de wind van voren vanwege auteurs en uitgeverijen, en die hebben nu de duitse kanzlerin Merkel voor hun kar weten te spannen. Ook de Europese Commissie onderzoekt de zaak (van eigendomsrechten) en stelt haar eisen. Alsof een register de problemen die er inderdaad zijn, zal oplossen.
Welke problemen zijn er dan? Als hele boeken, hele boekenrekken, en hele bibliotheken worden ingescand, dan zijn de gegevens in die boeken (zij het fictie, naslagwerken of encyclopediën) namelijk kwetsbaar voor ongecontroleerde verspreiding op het Internet. En dan komt er van de auteursrechterlijke bescherming en overeenkomstige vergoeding waarschijnlijk niet veel in huis.
Dit schrikbeeld is waarschijnlijk ontstaan uit de grote problemen die de muziekindustrie kent met het illegaal downloaden en copiëeren van mp3'tjes en andere bestanden. Maar de parallel klopt niet. Al die verzamelde en ingescande informatie wordt immers niet zomaar op het Internet gegooid, en is dan ook niet zomaar opvraagbaar of downloadbaar.
Integendeel, Google OCR't en indexeert de ingecande documenten, en daardoor worden deze documenten veel beter zoekbaar en vindbaar. Vergelijk het met een index achteraan in het boek, maar nog efficiënter en uitgebreider. Er worden nu documenten gevonden die anders gegarandeerd nooit zouden gevonden worden (en dan is er zeker geen vergoeding), en dat kan dus alleen maar in het voordeel van de auteur zijn (want dan kan er interesse onstaan of groeien). Daarnaast kan iedereen, waar ook ter wereld met een Internetverbinding, die op zoek is naar een bepaald onderwerp ook de informatie vinden die in die documenten vervat zit. Dus het bereik is ontzettend veel uitgebreider, want voortaan is de informatie niet alleen beschikbaar voor diegenen die zich naar de bibliotheek kunnen verplaatsen -- misschien wel in Parijs of Washington -- waar zich toevallig een kopie van het manuscript bevindt. Bovendien komt ook informatie uit oude en vergeten boeken, en waarover het copyright al is uitgedoofd, weer beschikbaar. En dat is een verrijking en herontdekking in vele gebieden. tenslotte zorgen tegenwoordig automatische vertaalmachines ervoor dat ook relevante documenten uit andere talen dan de zoektaal meegenomen en gevonden worden in de electronische zoektocht.
Maar hoe moet de gevonden informatie dan getoond worden, en hoe moet er een vergoeding naar de auteur of uitgever terugvloeien? Google vond daarom de "snippet" uit. Dat is een "knipseltje", ofwel een stukje tekst, uit het document waarin het gezochte onderwerp zich moet bevinden. Kleiner en beperkter dus dan een "excerpt", vaak enkele pagina's uit een document beslaat. Maar de bedoeling is dat de zoeker uit de context van dat stukje tekst kan verifiëren dat dat deel of het hele document relevant is. En dan kan hij de beslissing nemen om dat document of boek te bestellen. Via Amazon, bij voorbeeld. Of het alsnog in een bibliotheek te consulteren. En zo kan onderzoek of literatuurstudie ook onverwachte wendingen of uitbreidingen kennen. En op die wijze wordt via het kopen van een boek of een abonnement aan een bibliotheek een vergoeding betaald. tegenover het zoeken en bekijken van snippets of excerpts hoeft mijns inziens geen vergoeding te staan. En een auteur of uitgeverij mag zelfs niet weigeren om zijn documenten te laten OCR'en en indexeren, en ze te laten verschijnen in zoekresultaten, zolang de documenten gepubliceerd zijn en de getoonde resultaten beperkt ("fair use") blijven.
(foto: newyorker.com)

Geen opmerkingen:

Een reactie posten

Zoeken in deze blog