Az Nvidia kutatói a mesterséges intelligencia alapú művészeti alkotóeszközök rohamosan fejlődő világában egy új, innovatív, szövegből képbe történő személyre szabási módszert mutattak be Perfusion néven. De ez nem egy millió dolláros szupernehézsúlyú modell, mint a versenytársaké. A mindössze 100 KB méretű és 4 perces betanítási idővel rendelkező Perfusion jelentős kreatív rugalmasságot tesz lehetővé a személyre szabott koncepciók ábrázolásában, miközben megőrzi azok identitását.
A Perfusiont az Nvidia és az izraeli Tel-Aviv Egyetem által készített kutatási dokumentumban mutatták be. Kis mérete ellenére képes felülmúlni az olyan vezető AI art generátorokat, mint a Stability AI Stable Diffusion v1.5, a nemrég megjelent Stable Diffusion XL (SDXL) és a MidJourney a konkrét kiadások hatékonyságát tekintve.
A Perfusion legfőbb új ötlete a „Key-Locking”. Ez úgy működik, hogy a képgenerálás során a felhasználó által hozzáadni kívánt új fogalmakat, például egy konkrét macskát vagy széket, egy általánosabb kategóriához kapcsolja. Például a macska a „macska” tágabb fogalmához kapcsolódik.
Ez segít elkerülni a túlillesztést, amikor a modell túlságosan szűkre hangolódik a pontos képzési példákhoz. A túlzott illeszkedés megnehezíti a mesterséges intelligencia számára, hogy a fogalom új, kreatív változatait generálja.
Azáltal, hogy az új macskát a macska általános fogalmához köti, a modell számos különböző pózban, megjelenésben és környezetben ábrázolhatja a macskát. De továbbra is megmarad az alapvető „macskásság”, ami miatt a tervezett macskának látszik, nem pedig egy tetszőleges macskának.
Egyszerűbben fogalmazva tehát a Key-Locking lehetővé teszi, hogy a mesterséges intelligencia rugalmasan ábrázolja a személyre szabott koncepciókat, miközben megőrzi az alapvető identitását. Olyan ez, mintha egy művésznek a következő utasításokat adnánk: „Rajzold le a macskámat, Tomot, miközben alszik, fonallal játszik és virágokat szaglászik„.
Miért gondolja azt az Nvidia, hogy a kevesebb több
A Perfusion lehetővé teszi azt is, hogy több személyre szabott koncepciót természetes interakciókkal kombináljunk egyetlen képen, ellentétben a meglévő eszközökkel, amelyek a koncepciókat elszigetelten tanulják meg. A felhasználók szöveges utasításokkal irányíthatják a képalkotási folyamatot, olyan fogalmakat egyesítve, mint például egy adott macska és egy szék.
A Perfusion egy figyelemre méltó funkciót kínál, amely lehetővé teszi, hogy a felhasználók egyetlen 100 KB-os modell beállításával szabályozzák a vizuális hűség (a kép) és a szöveges összehangolás (a prompt) közötti egyensúlyt a következtetés során. Ez a képesség lehetővé teszi a felhasználók számára, hogy könnyen felfedezzék a Pareto-frontot (szöveghasonlóság vs. képhasonlóság), és kiválasszák az egyedi igényeiknek megfelelő optimális kompromisszumot, mindezt újratanulás nélkül. Fontos megjegyezni, hogy a modell képzése némi finomságot igényel.
Ha túlságosan a modell reprodukálására összpontosítunk, az ahhoz vezet, hogy a modell újra és újra ugyanazt a kimenetet produkálja, és ha túlságosan szorosan, szabadság nélkül követjük a felkérést, az általában rossz eredményt hoz. A testreszabás fontos része a rugalmasság, amellyel beállítható, hogy a generátor mennyire közelítsen a prompthoz.
Más mesterséges intelligencia-képgenerátorok is rendelkeznek a felhasználók számára a kimenet finomhangolásának módjával, de ezek terjedelmesek. Referenciaként a LoRA egy népszerű finomhangolási módszer, amelyet a Stable Diffusionben használnak. Ez az alkalmazáshoz több tucat megabájttól akár több mint egy gigabájtig (GB) is hozzáadhat. Egy másik módszer, a szöveges inverziós beágyazások könnyebbek, de kevésbé pontosak. A Dreambooth, a jelenleg legpontosabb technikával képzett modell több mint 2 GB-ot nyom.
Ehhez képest az Nvidia szerint a Perfusion a korábban említett vezető AI-technikákhoz képest jobb vizuális minőséget és a súgókhoz való igazodást produkál. Az ultrahatékony méret lehetővé teszi, hogy csak a szükséges részeket frissítse, amikor finomhangolja a kép előállításának módját, szemben a teljes modellt finomhangoló módszerek több GB-os lábnyomával.
Ez is érdekelhet:
- Kína szigorít a generatív AI-val kapcsolatban, az Apple azonnal lépett
- JBL Tour Pro 2 vélemények: A vezeték nélküli fülhallgatók új csúcsa