Какво е DALL·E 2? Обяснение за начинаещи с примери

Cto Takoe Dall E 2 Ob Asnenie Dla Nacinausih S Primerami



Какво е DALL·E 2?

DALL·E 2 е програма с изкуствен интелект, която създава изображения от текстови описания, разкриха в четвъртък от OpenAI, изследователска компания.





Той използва тренировъчна версия с 12 милиарда параметри на трансформаторния модел GPT-3, за да интерпретира входовете на естествен език и да генерира съответните изображения. Например, когато беше предоставено изречението „черно-бяла снимка на малко куче“, то създаде правилно изобразено черно-бяло изображение на чихуахуа.





Системата не е перфектна — понякога създава изображения, които са трудни за тълкуване или са напълно неподходящи. Например, когато беше помолен да генерира изображение на „човек, каращ моноколка по въже над вулкан“, се получи (красиво, според мен), но напълно несвързано изображение на залез над вода с малка фигура на преден план .





Все пак резултатите са впечатляващи и OpenAI казва, че DALL·E 2 „е първият AI модел, който генерира изображения от текстови описания, които могат да съперничат на качеството на професионалните художници.“



Системата беше обучена върху набор от данни от двойки текст-изображение, състоящ се от около 1,3 милиона изображения и надписи от интернет, които бяха изчерпани и курирани от OpenAI. След това данните за обучение бяха използвани за фина настройка на модела GPT-3, така че да може да генерира изображения от текстови описания.

OpenAI казва, че системата може да генерира „висококачествени“ изображения от широк спектър от текстови описания, включително тези, които са абстрактни, конкретни или дори поетични.

В допълнение към примера с чихуахуа, други примери за изображения, създадени от DALL·E 2, включват правилно изобразен портрет на Адолф Хитлер, изображение на дракон, направено от зеленчуци, и изображение на Мона Лиза, направено от препечен хляб.



Системата също така може да генерира изображения на неща, които не съществуват, като например „floof“ (измислено животно) или „tulpa“ (мислоформа).

Като цяло резултатите са впечатляващи и OpenAI казва, че системата „отваря нови възможности за генериране на изображения от текстови описания“.

ОТ Е 2 Това CLIP-система преобразува текстова информация във визуална. Това е парадигма енкодер-декодер, което означава, че когато се предостави входен текст, той първо се преобразува в машинен вход, след това се обработва от системата и накрая се предава на декодера, който преобразува кодираните данни в изображение.

Какво е DALL E 2

Какво е DALL·E 2?

Това е най-новото поколение на DALL·E, генеративен езиков модел, който използва фрази за създаване на напълно нови визуални ефекти. DALL E 2 е огромен 3.5V модел, макар и не толкова масивен като GPT-3. Интересното е, че е и по-лек от своя предшественик (12B). По отношение на подравняването на описанието и фотореализма, DALL·E 2 е 70% по-добър от DALL·E 2 въпреки по-големия си размер.

DALL.E 2- обяснение за начинаещи с примери

По-конкретно, DALL·E 2 е йерархичен условен модел за синтез на текстови изображения, който съчетава дълбоко обучение за обработка на естествен език с компютърно зрение за генериране на изображения. Неговата цел е да обучи два модела, а комплектът за обучение се състои от сдвоени снимки и описания. Първият е a priori, който, ако има писмено заглавие, може да бъде обучен да генерира вграждане на CLIP изображение. След това имаме декодер, който при вграждане на CLIP изображение (и надпис, ако има), може да генерира обучено изображение.

DALLE 2 се обучава с помощта на стотици милиони снимки с надписи от интернет и някои от тези изображения се премахват и преместват, за да се промени това, което моделът научава. Той извлича множество опции за изображения CLIP прикачени файлове и след това го използвайте декодер преминете през всеки от тях. След това създава интересна комбинация от цялата тази информация, дадена от потребителя.

Пример DALL IS 2

Нека изиграем малка игра, за да разберем DALL·E. Нека го разделим на следващите три стъпки.

  1. Представете си дъги, облаци и еднорози, летящи в синьото небе. Представете си каква може да бъде една картина във вашето въображение. Хората са най-близкото нещо, което имаме до перфектния аналог на вградено изображение, а картината, която току-що изникна в главата ви, е идеален пример за това. Можете само да гадаете за крайния продукт, но имате добра представа какво трябва да бъде включено. Априорният модел отвежда читателя от думите във фраза до сцена в неговото или нейното въображение.
  2. Сега можете да започнете да рисувате. Това, което unCLIP прави, е да преобразува вашата ментална картина в истинска скица. Сега можете точно да пресъздадете друг герой от същото описание, със същите основни статистики, но с напълно нов визуален стил. DALL·E 2 може също да генерира уникални изображения от съществуващо изображение, вградено по този начин.
  3. Обърнете внимание на скицата, която сте направили. Това се случва, когато скицираш описанието на „еднорог в средата на облаците и дъга се издига срещу небето“. Сега прегледайте изображението и текста, за да определите какво най-добре илюстрира другото (слънце, къща, дърво и т.н.) и какво най-добре илюстрира темата, стила, цветовете и т.н. Това, което CLIP прави, е да кодира характеристиките. текст и изображения.

След като вече знаем какво е DALL-E, нека да преминем към следващия раздел и да разберем неговите характеристики.

Бакшиш: Как да създавате реалистични изображения с услугата DALL-E-2 AI

Включва DALL E 2

По-долу са спецификациите на DALL·E 2.

  1. Вариации
  2. Оцветяване
  3. Текстови разлики

Нека поговорим за тях подробно.

как да направите визитни картички в word 2010

1] Вариации

DALL·E 2 надхвърля простото превеждане на изречение в изображение. OpenAI може да експериментира с генериращия процес, произвеждайки различни резултати за даден подпис благодарение на стабилните вграждания на CLIP. Това, което CLIP „вижда“ в своя „ум“, е това, което счита за важно от входа (остава същото за всички изображения) и това, което може да бъде заменено (което се променя за различните изображения). Когато е възможно, DALL·E 2 ще запази както „смислена информация...и естетически аспекти“.

2] Оцветяване

DALL·E 2 може да променя съществуващи снимки с автоматично попълване. В следващия пример лявото изображение е оригиналното изображение, а в централната и дясната снимка елементът е начертан на различни места. DALL·E 2 съвпада с допълнителен елемент към Picture Style. Той също така актуализира текстурите и отраженията, за да отрази новия елемент.

Прочети : Какво можете да правите с ChatGPT

3] Разлики в текста

DALL·E 2 преобразува изображения, използвайки разлики в текста. DALL·E 2 също има разширени възможности за интерполация, които ви позволяват да променяте обекти. Един потребител на Twitter успя да „преумори“ своя iPhone. twitter.com за да го проверите.

Ако харесвате тези функции, всичко, което трябва да направите, е да отидете на openai.com и след това се регистрирайте. Можете да създадете нов акаунт или да използвате съществуващите си акаунти в Microsoft или Google, за да се регистрирате. След като направите това, ще получите някои безплатни кредити, ако искате повече, трябва да платите за тях.

Това са някои от характеристиките на DALL·E 2, има много страхотни случаи на употреба, но винаги се препоръчва да не разчитате твърде много на AI инструменти. В крайна сметка те не са нищо друго освен инструменти, използвани за свършване на работата, те никога не могат да заменят емоционалната интелигентност на човека.

Прочетете също: Най-добрите приложения, софтуер и уебсайтове на Deepfake.

Какво е DALL E 2
Популярни Публикации