Mitä hyötyä multimodaalisuudesta on käytännön työssä?
Suurin hyöty on, että tieto kulkee muodosta toiseen ilman käsityötä. Valokuva fläppitaulusta muuttuu muistioksi, kuvakaappaus virheilmoituksesta selitykseksi ja ratkaisuksi, taulukon kuva Excel-tiedostoksi ja tuotekuva myyntitekstiksi. Puheen puolella sama malli litteroi palaverin ja vastaa puhuttuun kysymykseen. Käytännössä multimodaalisuus poistaa välivaiheen, jossa ihminen naputtelee kuvassa tai äänessä olevan tiedon koneelle.
Mitä rajoituksia multimodaalisilla malleilla on?
Kuvan ymmärtäminen ei ole täydellistä: pienet yksityiskohdat, käsiala ja tiheät taulukot tuottavat edelleen virheitä, joten luvut kannattaa tarkistaa. Mallien kuvantuotanto on eri asia kuin kuvan ymmärtäminen, ja niiden taso vaihtelee mallikohtaisesti. Kokosimme kuva- ja videotyökalujen tilanteen kuvaoppaaseen.
Esimerkki käytännöstä
Ostolaskun kuva Claudeen ja pyyntö: poimi toimittaja, summa, eräpäivä ja tiliöintiehdotus taulukkoon. Malli lukee kuvan ja palauttaa rakenteisen vastauksen, jonka voi liittää järjestelmään. Sama toimii kuiteille, rahtikirjeille ja käsin täytetyille lomakkeille, kunhan ihminen tarkistaa summat.