Google a introdus rețeaua neuronală Imagen
Miscelaneu / / May 24, 2022
Și o face cel puțin la fel de bine ca DALL-E 2.
Google a anunţat Imagen este o rețea neuronală care convertește o interogare de text în imagini. Este un concurent direct DALL-E2 de la OpenAI - care funcționează și mai bine în unele scenarii.
Pentru a recunoaște o interogare de text, rețeaua neuronală folosește modele mari de limbaj - algoritmi naturali de procesare a vorbirii precum GPT-3 se bazează și pe ele.
Sistemul funcționează în trei etape. Prima desenează o imagine mică de 64 x 64 pixeli, care este rafinată până când rețeaua neuronală o poate schimba pentru a se potrivi mai bine cu cererea inițială. Imaginea este apoi scalată până la 256 x 256 pixeli, iar Imagen rafinează detaliile. În a treia etapă, același lucru se repetă deja cu pânza de dimensiunea finală - 1024 x 1024 pixeli.
Textul studiului notează că Imagen se descurcă cu înțelegerea interogărilor complexe mai bine decât DALL-E 2. De exemplu, pentru interogarea „Panda face latte art”, DALL-E 2 a returnat exclusiv latte art cu panda, în timp ce rețeaua neuronală Google a reușit să producă rezultate în mare parte corecte:
Dar Google admite, de asemenea, că niciuna dintre aceste rețele neuronale nu a putut face față interogării „astronaut de călărie”: ambele pun cu încăpățânare astronautul pe cal, și nu invers. Ambele au evident loc să crească.
Rezultatele evaluării spectatorului independent arată că Imagen depășește DALL-E 2 în ceea ce privește acuratețea și relevanța. Și deși această comparație poate fi considerată subiectivă, astfel de rezultate sunt încă impresionante, având în vedere că DALL-E 2 a fost până acum un ideal de neatins pe care alte rețele neuronale de natură similară nu l-au putut egala. destinaţie.
În orice caz, Imagen rămâne deocamdată un proiect experimental, pe care utilizatorii obișnuiți nu îl pot accesa. Nu este clar cât va dura până când Google va crea un serviciu de acces deschis bazat pe acesta.
Citeste si🧐
- Noua rețea neuronală Paint Transformer transformă o fotografie într-un obiect de pictură
- Polaroidul viitorului: noua rețea neuronală a NVIDIA transformă imaginile 2D în modele 3D
- Sber a lansat rețeaua neuronală ruDALL-E, care generează imagini conform descrierii
Cea mai bună ofertă a săptămânii: reduceri de la AliExpress, Lamoda, Mixit și alte magazine