Foto’s lezen: dat kan een algoritme ook

Is jouw foto-archief een onontwarbare bende waarin je geen enkele foto meer terugvindt? Geeft niks. Microsoft heeft een algoritme ontwikkeld dat titels bij foto’s bedenkt waarmee je zo de juiste foto opduikelt. Schijnbaar kiest dat algoritme betere titels dan wij mensen.

Mijn foto-archief huist in Lightroom, een fotobewerkingsprogramma. Daar organiseer ik mijn beelden op jaar, maand en titel (bijvoorbeeld: 2020-09 Fietsvakantie Italië). Terugzoeken werkt prima als ik weet wanneer ik de bewuste foto heb gemaakt.

Maar onlangs was ik op zoek naar een portretfoto van mijn broertje. Hij kreeg een fietshelm voor zijn verjaardag, en die wilde ik graag op zijn hoofd photoshoppen. Enfin, die zoektocht bleek een stuk lastiger. Omdat ik nooit tag, kon ik niet met één klik alle foto’s waar hij op stond naar boven toveren.

En toch, die paar keer zoeken per jaar weegt voor mij niet op tegen de tijd die het kost om handmatig al mijn (honderden) foto’s per maand van keywords te voorzien. En met de rappe ontwikkelingen op het gebied van Artificial Intelligence, is daar nu al helemaal geen aanleiding meer toe.

In onderstaand filmpje zie je wat zo’n algoritme ‘ziet’ op foto’s:

Wie is de doelgroep?

Voor blinden en slechtzienden zijn afbeeldingen op internet lastig te ‘lezen’. Hier bestaat al lang een oplossing voor, namelijk de zogenaamde ‘alt text’. Dit is tekst die de schrijver kan toevoegen aan een afbeelding op een website. Dat kan ik ook doen bij alle afbeeldingen op dit blog.

Maar ik doe het niet.

Omdat het een rotwerkje is. Net zoals die tags in Lightroom.

En net als ik doen heel veel mensen dat dus niet. En dáár komt het algoritme van Microsoft om de hoek kijken. Die kan ‘vertellen’ wat er te zien is op een foto.

Hieronder krijg je een impressie van hoe dat algoritme deduceert wat er te zien is:

De animatie gaat wel erg snel trouwens. Het kostte me 5x keer kijken om te snappen wat ik zag. Misschien kan een volgend algoritme daar dan ook weer uitleg over geven 🙂

On another note: sommige teksten bij foto’s zijn tenenkrommend. Die hangen dan op een bordje, naast een foto in museum Foam. Daar was dit algoritme prima van pas gekomen.