You are currently viewing Az Nvidia képgeneráló szoftvere egy floppy lemezre is felférne, állítják
Fotó: Decrypt

Az Nvidia képgeneráló szoftvere egy floppy lemezre is felférne, állítják

  • Post author:
  • Post category:Tech
Hirdetések
trading212 banner 970 x 250

Az Nvidia kutatói a mesterséges intelligencia alapú művészeti alkotóeszközök rohamosan fejlődő világában egy új, innovatív, szövegből képbe történő személyre szabási módszert mutattak be Perfusion néven. De ez nem egy millió dolláros szupernehézsúlyú modell, mint a versenytársaké. A mindössze 100 KB méretű és 4 perces betanítási idővel rendelkező Perfusion jelentős kreatív rugalmasságot tesz lehetővé a személyre szabott koncepciók ábrázolásában, miközben megőrzi azok identitását.

A Perfusiont az Nvidia és az izraeli Tel-Aviv Egyetem által készített kutatási dokumentumban mutatták be. Kis mérete ellenére képes felülmúlni az olyan vezető AI art generátorokat, mint a Stability AI Stable Diffusion v1.5, a nemrég megjelent Stable Diffusion XL (SDXL) és a MidJourney a konkrét kiadások hatékonyságát tekintve.

nvidia kepgeneralo mi
Fotó: Nvidia

A Perfusion legfőbb új ötlete a “Key-Locking”. Ez úgy működik, hogy a képgenerálás során a felhasználó által hozzáadni kívánt új fogalmakat, például egy konkrét macskát vagy széket, egy általánosabb kategóriához kapcsolja. Például a macska a “macska” tágabb fogalmához kapcsolódik.

Ez segít elkerülni a túlillesztést, amikor a modell túlságosan szűkre hangolódik a pontos képzési példákhoz. A túlzott illeszkedés megnehezíti a mesterséges intelligencia számára, hogy a fogalom új, kreatív változatait generálja.

Azáltal, hogy az új macskát a macska általános fogalmához köti, a modell számos különböző pózban, megjelenésben és környezetben ábrázolhatja a macskát. De továbbra is megmarad az alapvető “macskásság”, ami miatt a tervezett macskának látszik, nem pedig egy tetszőleges macskának.

Egyszerűbben fogalmazva tehát a Key-Locking lehetővé teszi, hogy a mesterséges intelligencia rugalmasan ábrázolja a személyre szabott koncepciókat, miközben megőrzi az alapvető identitását. Olyan ez, mintha egy művésznek a következő utasításokat adnánk: “Rajzold le a macskámat, Tomot, miközben alszik, fonallal játszik és virágokat szaglászik“.

Miért gondolja azt az Nvidia, hogy a kevesebb több

A Perfusion lehetővé teszi azt is, hogy több személyre szabott koncepciót természetes interakciókkal kombináljunk egyetlen képen, ellentétben a meglévő eszközökkel, amelyek a koncepciókat elszigetelten tanulják meg. A felhasználók szöveges utasításokkal irányíthatják a képalkotási folyamatot, olyan fogalmakat egyesítve, mint például egy adott macska és egy szék.

A Perfusion egy figyelemre méltó funkciót kínál, amely lehetővé teszi, hogy a felhasználók egyetlen 100 KB-os modell beállításával szabályozzák a vizuális hűség (a kép) és a szöveges összehangolás (a prompt) közötti egyensúlyt a következtetés során. Ez a képesség lehetővé teszi a felhasználók számára, hogy könnyen felfedezzék a Pareto-frontot (szöveghasonlóság vs. képhasonlóság), és kiválasszák az egyedi igényeiknek megfelelő optimális kompromisszumot, mindezt újratanulás nélkül. Fontos megjegyezni, hogy a modell képzése némi finomságot igényel.

Ha túlságosan a modell reprodukálására összpontosítunk, az ahhoz vezet, hogy a modell újra és újra ugyanazt a kimenetet produkálja, és ha túlságosan szorosan, szabadság nélkül követjük a felkérést, az általában rossz eredményt hoz. A testreszabás fontos része a rugalmasság, amellyel beállítható, hogy a generátor mennyire közelítsen a prompthoz.

text visual nvdia ai

Más mesterséges intelligencia-képgenerátorok is rendelkeznek a felhasználók számára a kimenet finomhangolásának módjával, de ezek terjedelmesek. Referenciaként a LoRA egy népszerű finomhangolási módszer, amelyet a Stable Diffusionben használnak. Ez az alkalmazáshoz több tucat megabájttól akár több mint egy gigabájtig (GB) is hozzáadhat. Egy másik módszer, a szöveges inverziós beágyazások könnyebbek, de kevésbé pontosak. A Dreambooth, a jelenleg legpontosabb technikával képzett modell több mint 2 GB-ot nyom.

Ehhez képest az Nvidia szerint a Perfusion a korábban említett vezető AI-technikákhoz képest jobb vizuális minőséget és a súgókhoz való igazodást produkál. Az ultrahatékony méret lehetővé teszi, hogy csak a szükséges részeket frissítse, amikor finomhangolja a kép előállításának módját, szemben a teljes modellt finomhangoló módszerek több GB-os lábnyomával.

Ez is érdekelhet:

Hirdetések

Nagy Béla

Kezdő szövegíró, és marketinges aki imádja a technológia világát. Kedvencei közé tartoznak az okostelefonok, és a számítógépek. De bármilyen Bluetooth-os kütyüvel eljátszik szabadidejében.