Apa itu Dalle-mini dan Bagaimana Cara Kerjanya?

Dalle-mini adalah model pembelajaran mendalam yang dapat menghasilkan gambar berkualitas tinggi dari teks masukan pengguna. Ini didasarkan pada model DALL-E, yang dirilis OpenAI pada Januari 2021. DALL-E adalah singkatan dari “ Bahasa Terurai dan Ekspresi Laten ” adalah jaringan saraf berbasis transformator yang dapat menyandikan teks dan gambar ke dalam ruang laten umum, lalu mendekodekannya kembali ke salah satu modalitas.

Artikel ini akan menjelaskan konten berikut:

Apa itu Dalle-mini?

Beri dia-mini adalah versi DALL-E yang lebih kecil dan lebih cepat, yang dibuat oleh EleutherAI, sebuah kolektif penelitian sumber terbuka. Dalle-mini hanya menggunakan 6 miliar parameter, dibandingkan dengan 12 miliar parameter DALL-E, dan dapat berjalan pada satu GPU. Dalle-mini juga menggunakan tokenizer dan kosa kata yang berbeda untuk input teks, yang membuatnya lebih kompatibel dengan berbagai bahasa dan domain:

Catatan : Pengguna dapat menghasilkan gambar bebas biaya menggunakan Dalle-mini dengan mengikuti tautan .

Apa Cara Kerja Dalle-mini?

Ide utama di balik Dalle-mini adalah kekuatan transformer, yang merupakan jaringan saraf. Mereka dapat mempelajari ketergantungan jangka panjang dan pola kompleks dalam data berurutan, seperti teks atau gambar.

Transformer terdiri dari dua bagian utama: encoder dan decoder. Bagian pertama mengambil input (deskripsi teks) dan mengubahnya menjadi vektor tersembunyi. Setelah itu, decoder mengambilnya dan menghasilkan output (gambar) yang relevan dengan input tersebut.

Apa Perbedaan antara Dalle-mini dan DALL-E?

Dalle-mini dan DALL-E menggunakan arsitektur encoder-decoder bersama untuk teks dan gambar. Mereka dapat menyandikan dan mendekodekan kedua modalitas menggunakan jaringan yang sama. Ini memungkinkan mereka mempelajari ruang laten umum yang menangkap hubungan semantik antara teks dan gambar. Setelah itu, memungkinkan mereka melakukan cross-modal generation, seperti membuat gambar dari teks atau sebaliknya.

Bagaimana Cara Kerja Dalle-mini?

Untuk menghasilkan gambar dari deskripsi teks, Dalle-mini pertama-tama menandai teks menggunakan algoritma byte-pair encoding (BPE), yang membagi teks menjadi unit subkata berdasarkan frekuensi dan kemunculan bersama:

Mari kita menuju detail kerja internal Dalle-mini:

Kerja Internal Dalle-mini

Mari kita andaikan, kata “ bermain ” dapat dipecah menjadi “ tempat ' Dan ' ying ”. Token kemudian dipetakan ke ID numerik menggunakan kosakata 8192 token. ID dimasukkan ke dalam encoder, menghasilkan representasi laten berukuran 256 x 64:

Dekoder kemudian mengambil representasi laten dan menghasilkan gambar berukuran 256 x 256 piksel. Decoder menggunakan proses autoregresif, yang berarti menghasilkan setiap piksel satu per satu, dikondisikan pada piksel sebelumnya dan representasi laten.

Bagaimana Menghasilkan Gambar dari Deskripsi Teks Menggunakan Dalle-mini?

Untuk menghasilkan deskripsi teks dari gambar menggunakan Dalle-mini, masukkan teks ke dalam jendela prompt. Misalnya, ketik “ Lukisan bunga acak ' di prompt dan tekan ' Berlari ' tombol:

Keluaran menunjukkan bahwa Dalle-mini telah menghasilkan gambar yang relevan sesuai dengan teks masukan.

Kesimpulan

Dalle-mini adalah model luar biasa yang mendemonstrasikan potensi transformer untuk generasi lintas modal. Mereka dapat membuat gambar yang realistis dan beragam dari deskripsi bahasa alami, serta teks yang koheren dan relevan dari gambar. Mereka juga dapat menangani komposisi yang rumit, seperti menggabungkan beberapa objek atau atribut dalam satu gambar atau teks. Artikel ini telah menjelaskan Dalle-mini dan cara kerjanya secara mendetail.

Apa itu Dalle-mini dan Bagaimana Cara Kerjanya?