Wij gebruiken cookies voor marketingdoeleinden en profilering.
Hoe werkt Google Search? Het principe van de zoekmachine uitgelegd
Terug
Een zoekmachine is zowel enorm complex als vrij eenvoudig. Het enige dat een online zoekmachine zoals Google of Bing namelijk doet, is een database met webpagina's samenstellen (ook wel de ‘zoekindex’ genoemd) en vervolgens elke keer dat er een zoekopdracht gegeven wordt door die database bladeren, de beste en meest relevante pagina’s verzamelen en die pagina's weergeven. Dat is eigenlijk alles.
Dat klinkt redelijk simpel, maar al deze stappen vereisen om kritische en complexe afwegingen. De meeste hiervan worden bepaald door twee dingen: tijd en geld.
Want zelfs als je in theorie een constant bijgewerkte database zou kunnen bouwen die alle miljarden pagina's op internet bevat, zouden alleen al de opslagkosten en benodigde bandbreedte praktisch elk bedrijf ter wereld failliet laten gaan. En dan hebben we het nog niet eens over de kosten van het miljoenen of miljarden keren per dag doorzoeken van die database. Je moet er dus voor zorgen dat je alleen relevante informatie opslaat en deze snel kunt doorzoeken. Want elke milliseconde doet ertoe (Google laat nog steeds bovenaan de zoekresultaten zien hoe lang elke zoekopdracht duurde) en er is sowieso geen tijd om de hele database te doorzoeken.
Fundamentele vraag
Iedere zoekmachine, stel dat je er een zelf wilt bouwen, begint dus met een verrassend filosofische vraag: ‘wat maakt een webpagina goed?’. Je moet beslissen wat alleen maar een afwijkende mening is en wat ronduit desinformatie is. En je moet uitzoeken wat commerciële reclame is en hoeveel advertenties te veel zijn. Sites die duidelijk geschreven zijn door AI en vol staan met SEO-rommel zijn slecht. Receptblogs die geschreven zijn door een echt mens en vol staan met SEO-rommel zijn meestal prima.
Als je al deze discussies hebt gehad en je grenzen hebt bepaald, kun je een paar duizend domeinen identificeren die je zeker in je zoekmachine wilt hebben. Je zult nieuwssites opnemen van NOS tot ANP en CNN, populaire discussiefora zoals Reddit en Twitter, handige diensten zoals Wikipedia, brede platforms zoals YouTube en Amazon, en de beste websites voor recepten, sport, winkelen en wat al je meer kunt vinden op het web. Soms kun je een samenwerking aangaan met die sites om die gegevens op een gestructureerde manier van de site zelf te krijgen zonder dat je iedere pagina afzonderlijk hoeft te bekijken. Veel grote platforms maken dit gemakkelijk en doen dit soms zelfs gratis.
Pagina’s bekijken
Als je het antwoord op de vraag ‘wat maakt een webpagina goed?’ hebt geformuleerd, is het tijd om de spinnen, de spiders, los te laten. Dit zijn bots die de inhoud van een webpagina bekijken, iedere link op de pagina vinden en volgen, al die pagina's indexeren, op die pagina’s weer iedere link volgen, enzovoort... Elke keer dat de bot op een pagina terechtkomt, beoordeelt hij deze op basis van de criteria die je hebt ingesteld voor een goede pagina. Alles wat de bot als ‘goed’ beoordeelt, wordt ergens op een server gedownload, waarmee jouw zoekindex begint te groeien met door jou aangegeven ‘goede’ pagina’s.
Maar de bots zijn niet overal welkom. Iedere keer dat een bot ofwel crawler een webpagina opent en bezoekt, kost dit de provider bandbreedte; een zoekmachine die bijvoorbeeld probeert iedere pagina van je website een keer per seconde te laden en op te slaan, gewoon om er zeker van te zijn dat de pagina’s in de zoekindex up-to-date zijn, kan een flinke aanslag plegen op de beschikbare capaciteit.
De meeste websites hebben dus een bestandje met de naam ‘robots.txt’ dat aangeeft welke bots wel en geen toegang hebben tot hun inhoud en welke URL's ze mogen crawlen/bekijken en indexeren. Zoekmachines hoeven technisch gezien de wensen van ‘robots.txt’ niet te respecteren, maar de conventie is om dit wel doen, en het is wel zo netjes. Bijna alle sites staan Google en Bing toe hun pagina’s te crawlen, omdat vindbaarheid in deze zoekmachines opweegt tegen de bandbreedtecapaciteit. Maar veel websites blokkeren specifieke providers, zoals winkelsites die niet willen dat Amazon of Bol.com hun websites crawlt en analyseert. Andere websites zullen algemene regels opstellen: geen andere zoekmachines dan Google en Bing. Dit is dan ook de reden dat verschillende zoekmachines afwijkende resultaten kunnen geven.
Efficiënt zoeken: rangschikken
De crawlers komen terug met een brede momentopname van het internet: de bots van het ter ziele gegane Neeva doorzochten bijvoorbeeld ongeveer 200 miljoen URL's per dag. Google wil niet aangeven hoeveel pagina’s het crawlt, maar het zegt wel biljoenen pagina’s te kennen en regelmatig te volgen.
Vervolgens is het de taak om al die pagina's op volgorde te rangschikken voor elke afzonderlijke zoekopdracht die jouw zoekmachine zou kunnen krijgen. Je kunt dan het aantal pagina’s beperken dat je moet doorzoeken als iemand een zoekopdracht geeft. Je zou de pagina's kunnen sorteren op onderwerp, en ze opslaan in kleinere en beter doorzoekbare indexen in plaats van in één enkele gigantische database: lokale resultaten samen met andere lokale resultaten, schoenen bij schoenen, nieuws bij nieuws. Hoe gedetailleerder je je doorzoekbare index maakt, des te sneller je deze kunt doorzoeken.
Zoekmachines maken veel gebruik van machine learning om de onderwerpen en inhoud van een bepaalde pagina te achterhalen, maar er is ook veel menselijk inzicht vereist. Teams beoordelen vragen en resultaten op een schaal van nul tot tien. Soms is het duidelijk: als iemand zoekt op ‘Facebook’ en het eerste resultaat is niet facebook.com, dan is er duidelijk iets mis. Maar meestal worden de beoordelingen samengevoegd, en in de zoekindex en het onderwerpmodel aangepast, waarna het proces helemaal opnieuw begint.
Synoniemen
Eigenlijk is dit nog maar de helft van het probleem. Je moet ook rekening houden met wat bekend staat als 'query-begrip'. Dit houdt in dat je weet dat mensen die zoeken naar 'oranje' en 'nationaal voetbalelftal' naar hetzelfde zoeken, maar degenen die zoeken naar 'oranje' en 'haar' waarschijnlijk niet. Je krijgt dus uiteindelijk een enorme bibliotheek met synoniemen en overeenkomsten en manieren om zoekopdrachten te herschrijven. Maar Google zegt graag dat elke dag 15 procent van de zoekopdrachten geheel nieuw is, en dat je dus altijd nieuwe dingen zult leren over hoe mensen online naar dingen zoeken. Je moet deze database van synoniemen en overeenkomsten dus continu bijhouden en updaten.
Google kan zich hierbij ook baseren op het gedrag binnen de zoekmachine en op gegevens over waar mensen op klikken. Het aanklikken van een link, zonder dit te laten volgen door een directe zoekopdracht of het aanklikken van andere links, is het beste signaal; het geeft immers aan dat de zoeker meteen gevonden heeft waar hij of zij naar op zoek was, en dat de combinatie van zoekwoorden voldeed. En hoe meer gebruikers klikken, hoe meer je weet over waar ze eigenlijk naar op zoek zijn.
Snelheid, kosten en kwaliteit
Het runnen van een zoekmachine is constant evenwicht vinden tussen snelheid, kosten en kwaliteit. Je zou de hele database kunnen doorzoeken telkens wanneer iemand op ‘YouTube’ zoekt, maar dat zou te lang duren en te veel bandbreedte en opslagruimte in beslag nemen. Je zou een database ter grootte van het internet kunnen hebben, maar de opslagkosten zouden gigantisch zijn en het doorzoeken van deze database zou veel te traag gaan. Een mogelijkheid zou zijn je te beperken tot de 100 meest populaire sites op het internet, maar daar heeft niemand veel aan. Een laatste punt is dat websites voortdurend veranderen, dus ze zullen continu bezocht moeten worden door crawlers en de classificatiesystemen moeten zich voortdurend aanpassen.
Tot slot
Kortom, het is moeilijk en duur om een zoekmachine helemaal opnieuw op te bouwen. Dat is de reden waarom veel zoekmachines dat dan ook niet doen; ze gebruiken de zoekindexen van Bing voor tussen de 10 en 25 dollar per 1.000 transacties, en voegen dan hun eigen functies en interface toe. Dat is wat DuckDuckGo, Yahoo en de meeste andere kleinere zoekmachines doen, omdat Bing best goed is en het beheren en onderhouden van een eigen zoeksysteem enorm veel werk is. Google houdt zijn eigen zoekmachine en data echter zorgvuldig afgeschermd voor derden; het wil zijn moeizaam opgebouwde positie niet kwijtraken of zelfs maar delen met anderen.
P.S. Hoe je jouw website kunt laten indexeren door Google
- Ga naar Google Search Console.
- Open de URL inspection tool.
- Plak de URL die je door Google wilt laten indexeren in de search-.
- Wacht tot Google de URL gecontroleerd heeft.
- Klik op de knop ‘Request indexing’.
Als je deze procedure volgt, stel je jouw site open voor de bots/crawlers van Google en wordt jouw website geïndexeerd door de zoekmachine van Google.