Artificiell intelligens sätter ljud i Google Street View-scener

robot generando sonido

Visst har många av er spenderat timmar och timmar på att resa världen runt med Google Street View. Bilarna, ryggsäckarna och andra enheter som Google använder för att registrera vad som finns på vägar och gator runt om på planeten har bidragit till att minska avstånden och förvandlat digital turism till en trend de senaste åren.

Men på samma sätt som att besöka London street by street med Google Street View inte är detsamma som att gå personligen, det är inte heller samma att se ett foto än att njuta av en video, och ljud är en av de främsta anledningarna till detta skillnad.

Det är då imaginarysoundscape.net kommer in, ett japanskfödt projekt som gör att bilder låter med hjälp av artificiell intelligens. Om systemet upptäcker att det finns människor sätter det ljudet av konversationer, om det upptäcker en kyrka, placerar det en massa, om det finns en flod, sätter det vatten … på samma sätt som människor kan föreställa sig ljudet av en miljö bara genom att se det, kan IA föreställa sig det efter att ha tränat tillräckligt.

Det presenterade systemet fokuserar på detta omedvetna beteende, där tittarna fritt kan gå runt Google Street View och fördjupa sig i imaginära ljudlandskap som genereras med djupinlärningsmodeller. Vi kan också ladda upp en bild och se resultatet utan att behöva navigera i gatuvyn.

De kommenterar sin webbplats:

Detta arbete är baserat på den senaste utvecklingen av den intermodala tekniken för informationshämtning, såsom bild till ljud, text till bild, med hjälp av djupinlärning. Med tanke på videoingångarna matas systemet in med två modeller: en välutbildad och förutbildad bildigenkänningsmodell bearbetar ramarna, medan ett annat omvälvande neuralt nätverk läser ljudet som spektrogrambilder och utvecklas så att fördelningen av dess avvikelse är lika till det första.

De två nätverken låter dig hämta den mest lämpliga ljudfilen för en scen, från deras enorma uppsättning omgivande ljud som de har i sin databas.

Vid många tillfällen ignoreras resultatet av det kulturella och geografiska sammanhanget, vilket gör det tydligt att det fortfarande finns mycket arbete att göra.

Projektet presenterades i oktober 2018 och dess kod finns på github.