“Hoe nauwkeurig is het?” is de eerste vraag die iedereen stelt over een AI-geolocatiedienst. Het is ook de moeilijkste vraag om eerlijk te beantwoorden, omdat nauwkeurigheid sterk afhangt van wat je probeert te geolocaliseren, waar het zich bevindt, en wat “nauwkeurig” in jouw context betekent. In plaats van een enkel getal te geven, willen we doorlopen hoe we prestaties meten, wat onze benchmarks laten zien, en waar de technologie oprechte beperkingen heeft.

Hoe we nauwkeurigheid meten

Geolocatienauwkeurigheid wordt doorgaans gemeten in afstandsfout: hoe ver ligt de voorspelde locatie van de werkelijke locatie? Maar een enkel gemiddelde afstand is misleidend. Een systeem dat nauwkeurig is tot 10 meter in Amsterdam maar 5 kilometer afwijkt in landelijk Drenthe, zou een redelijk gemiddelde laten zien terwijl het voor de helft van het land onbruikbaar is.

We gebruiken meerdere aanvullende metingen:

Mediaanfout — de afstand waarbij de helft van de voorspellingen dichterbij zit en de andere helft verder weg. Dit is representatiever dan de gemiddelde fout, die scheefgetrokken wordt door uitschieters.

Recall bij afstandsdrempels — welk percentage van de zoekopdrachten levert een resultaat op binnen 25 meter, 100 meter, 1 kilometer en 5 kilometer van de werkelijke locatie. Dit vertelt je de kans op een bruikbaar antwoord op verschillende precisieniveaus.

Betrouwbaarheidscorrelatie — hoe goed voorspelt onze gerapporteerde betrouwbaarheidsscore de werkelijke nauwkeurigheid? Een betrouwbaarheidsscore is alleen nuttig als resultaten met hoge betrouwbaarheid daadwerkelijk nauwkeuriger zijn dan resultaten met lage betrouwbaarheid.

CosPlace: de basis

De visuele plaatsherkenning van GeoPin is gebouwd op CosPlace, een model ontwikkeld aan de Polytechnische Universiteit van Turijn, specifiek voor visuele geolocalisatie. CosPlace gebruikt een ResNet-152 backbone om 512-dimensionale embeddings te produceren die de visuele identiteit van plaatsen vastleggen.

In tegenstelling tot classificatiemodellen die afbeeldingen toewijzen aan discrete locatiecategorieën, leert CosPlace een continue embeddingsruimte waarin visueel vergelijkbare plaatsen dicht bij elkaar liggen. Het kan locaties matchen die het nooit tijdens de training heeft gezien, zolang visueel vergelijkbare referentiebeelden in onze database bestaan.

Op de Pittsburgh 30k benchmark bereikt CosPlace met ResNet-152 een recall@1 van meer dan 90%. Op de uitdagendere MSLS (Mapillary Street Level Sequences) dataset, die uiterlijke veranderingen over seizoenen heen bevat, is de prestatie lager maar concurrerend met de modernste methoden.

Onze Nederland-specifieke benchmarks

Academische benchmarks zijn nuttig om modellen te vergelijken, maar ze vertellen je niet hoe goed het systeem presteert op Nederlandse straten. We onderhouden een interne evaluatieset van 5.000 geogetagde foto’s uit heel Nederland, gestratificeerd per provincie en stedelijke/landelijke classificatie. Deze foto’s worden buiten onze referentie-index gehouden om datalekkage te voorkomen.

Dit is wat we waarnemen in onze evaluatieset:

Stadscentra (Amsterdam, Rotterdam, Den Haag, Utrecht): Mediaanfout van ongeveer 15-30 meter. Recall binnen 100 meter is hoger dan 75%. Dichte referentiebeelden en onderscheidende architectuur dragen bij aan sterke prestaties. Grachtenpanden, winkelgebieden en grote kruispunten worden bijzonder goed gematcht.

Buitenwijken: Mediaanfout van ongeveer 40-80 meter. Recall binnen 100 meter ligt rond de 55-65%. Repetitieve woonstijlen zijn moeilijker te onderscheiden, maar straatpatronen en beplanting bieden nog steeds bruikbare signalen.

Landelijke gebieden: De mediaanfout loopt op tot 150-500 meter. Recall binnen 100 meter daalt naar 25-35%. Open boerenland, generieke plattelandswegen en schaarse referentiedekking dragen allemaal bij aan lagere nauwkeurigheid. Echter, de recall binnen 1 kilometer blijft boven de 60%, wat vaak voldoende is voor landelijke onderzoekscontexten waar blokniveau-precisie niet verwacht wordt.

Industriegebieden en havens: De prestatie varieert aanzienlijk. Onderscheidende infrastructuur zoals kranen, silo’s en gespecialiseerde gebouwen matcht goed. Generieke pakhuisdistricten zijn lastiger.

De verificatiestap maakt het verschil

De bovenstaande cijfers weerspiegelen de volledige GeoPin-pipeline, inclusief onze geometrische verificatiefase met DISK-featureextractie en LightGlue-matching. Zonder deze stap, waarbij uitsluitend wordt vertrouwd op CosPlace-embeddingovereenkomst, daalt de nauwkeurigheid merkbaar — met name het percentage vals-positieven met hoge betrouwbaarheid.

Geometrische verificatie vangt gevallen op waarbij twee locaties er globaal vergelijkbaar uitzien maar verschillen in structurele details zoals raampatronen en dakrandgeometrie. De verificatiefase elimineert 30-40% van de incorrecte topkandidaten, wat de precisie aanzienlijk verbetert.

Wanneer ons systeem een resultaat met hoge betrouwbaarheid retourneert — zeg meer dan 50 gematchte geometrische kenmerken — is de kans dat dat resultaat binnen 50 meter van de werkelijke locatie ligt hoger dan 85%. Betrouwbaarheidsscores onder de 20 gematchte kenmerken zijn aanzienlijk minder betrouwbaar en moeten als benaderend worden behandeld.

Hoe verhoudt dit zich tot mensen?

GeoGuessr-spelers vertegenwoordigen de beste menselijke benchmark. Topspelers lokaliseren locaties tot op een paar honderd meter met behulp van taalkundige aanwijzingen, wegmarkeringen, vegetatie, zonpositie en culturele context. Voor Nederland kunnen experts provincies herkennen aan het wegdekoppervlak en grachtengordels onderscheiden aan brugranstijlen.

In een directe vergelijking is het beeld genuanceerd. Voor onderscheidende stedelijke locaties presteren mensen en GeoPin vergelijkbaar. Mensen blinken uit in het lezen van tekst (winkelborden, straatnaamborden) en het begrijpen van culturele context. GeoPin blinkt uit in consistentie, snelheid en het doorzoeken van miljoenen referentiebeelden die geen mens kan onthouden.

GeoPin wint duidelijk op schaal. Een menselijke expert besteedt 2-5 minuten per afbeelding; GeoPin levert resultaten in seconden. Voor het batchgewijs verwerken van honderden foto’s is geautomatiseerde geolocatie de enige haalbare optie. Mensen winnen duidelijk bij tekstuele aanwijzingen — een wegwijzer met “Appingedam 5 km” is triviaal voor een mens en moeilijk voor een visueel matchingsysteem.

Eerlijke beperkingen

Transparante benchmarking betekent erkennen waar de technologie tekortschiet.

Seizoensvariatie. Winterfoto’s matchen mogelijk niet met zomerreferentiebeelden. We nemen beelden uit meerdere seizoenen op in onze index, maar de dekking over seizoenen heen is niet uniform.

Bouw en verandering. Gebouwen worden gerenoveerd en straten heringericht. Wekelijkse index-updates helpen, maar er zal altijd vertraging zijn.

Interieurfoto’s. GeoPin verwerkt exterieure geolocatie op straatniveau. Interieurfoto’s matchen niet met onze referentiebeelden.

Ongebruikelijke hoeken. Luchtfoto’s, extreme close-ups en sterk bijgesneden afbeeldingen presteren slecht tegen referenties op straatniveau.

Wat de cijfers voor jou betekenen

Voor OSINT of journalistieke verificatie kun je betrouwbare resultaten verwachten in stedelijke gebieden en landelijke resultaten behandelen als benaderende startpunten. Verifieer altijd met ander bewijs en gebruik de betrouwbaarheidsscore als een oprechte betrouwbaarheidsindicator.

We publiceren deze benchmarks omdat nauwkeurigheidsclaims zonder methodologie betekenisloos zijn. Je verdient het om te weten wat het hulpmiddel wel en niet kan voordat je erop vertrouwt.