Dall-E 2: OpenAI-ის ახალი მოდელი და მისი შესაძლებლობები

Elenee Ch
6 min readApr 26, 2022

--

წყარო

სულ ცოტა ხნის წინ OpenAI-მ თავისი ინოვაციური მოდელის Dall-E-ის (სახელი წარმოდგება სალვადორ დალისა და პიქსარის ვოლ-ი-ს გაერთიანებით) მეორე ვერსია გამოუშვა. როგორც ოფიციალური წყარო იუწყება, ამ მოდელს შუძლია შექმნას არა მარტო ფოტომანიპულაციები ტექსტურ დავალებაზე დაყრდნობით, არამედ რეალისტური, მაღალი გარჩევადობის არტისტული ნამუშევრები სხვადასხვა სტილში.

ამ სტატიაში შევეხები ჩემთვის, როგორც ილუსტრატორისათვის საინტერესო რამდენიმე თემას: პირველ რიგში, განვიხილავთ თუ
როგორ მუშაობს დალი?
რა შესაძლებლობები აქვს მას?

რამდენად მიკერძოებული შეიძლება იყოს?
და
რა მომავალს უწინასწარმეტყველებენ?

1.როგორ მუშაობს Dall-E 2?

სანამ უშუალოდ სისტემის სპეციფიკაზე გადავიდოდეთ, აუცილებელია გვესმოდეს თუ როგორ აგენერირებს დალი ფოტოებს. ძალიან მარტივად, გასაგებ ენაზე რომ ავხსნათ ქვემოთ მოცემული ფოტო დაგვეხმარება.

წყარო

Dall-E 2 ფოტოების დასამუშავებლად სამ ნაბიჯს გადის:

საწყის ეტაპზე სპეციალურად გწვრთვნილი ტექსტის ენკოდერი იღებს ტექსტურ დავალებას (“კორგი უკრავს ცეცხლისმფრქვეველ საყვირზე”) > პირველადი მოდელი (prior) ამ დაშიფრულ ტექსტურ ინფორმაციას აკავშირებს შესაბამისი გამოსახულების ენკოდერთან, რომელიც მიღებული დავალებიდან იჭერს სემანტიკურ ინფორმაციას. > დაბოლოს, დეკოდერი ალბათობის პრინციპით ვიზუალურად აგენერირებს მიღებულ სემანტიკურ ინფორმაციას.

თუ უფრო ღრმად და დეტალურად გინდათ გაეცნოთ მუშაობის პრინციპს, გირჩევთ, ზოგადი წარმოდგენა შეიქმნათ იმ დამხმარე დიფუზიურ მოდელებზე— CLIP-სა (Contrastive Language-Image Pre-training) და GLIDE-ზე რომელსაც Dall-E 2 იყენებს. კლიპის წვრთნის პრინციპიც სამ ეტაპად შეგვიძლია დავყოთ, პირველ რიგში ყველა სურათი და შესაბამისი სათაური გაივლის შესაბამის ენკოდერში, შემდეგ გამოითვლება თითოეული წყვილის (სურათის, ტექსტის) მსგავსების კოეფიციენტი. ამ წვრთნის მიზანია, მაქსიმუმამდე აიყვანოს სწორად დაშიფრული გამოსახულებისა და სურათის წყვილის მსგავსების კოეფიციენტი და მინიმუმამდე დაიყვანოს არასწორად დაშიფრული (გამოსახულება/სურათის) წყვილის რაოდენობა.

ტექსტური დავალება “წითელი ვარდებით სავსე მწვანე ვაზა მაგიდაზე”

კლიპის სისტემა რომ არა, Dall-E 2 ვერ შეძლებდა განესაზღვრა სემანტიკურად რამდენად არის დაკავშირებული ბუნებრივი ენის ფრაგმენტი ვიზუალურ კონცეფციასთან, რაც გადამწყვეტია ფინალური გამოსახულების გენერირებისათვის. რაც შეეხება გლაიდს, იგი დიფუზიური მოდელების ძირითად კონცეფციას კიდევ უფრო აფართოებს წვრთნის პროცესში დამატებითი ტექსტური ინფორმაციის გადიდებით, რაც საბოლოოდ იწვევს ტექსტით განპირობებული გამოსახულების წარმოქმნას.

შესაბამისად, Dall-E 2-ის მოდიფირებული გლაიდი კლიპის გამოსახულების კოდირებაზე დაყრდნობით სწავლობს როგორ დააგენერიროს სემანტიკურად თანმიმდევრული სურათები. საპირისპირო დიფუზიის სტოქასტურობა კი ამარტივებს გამოსახულების ვარიაციების წარმოქმნას ერთი და იმავე გამოსახულების ვექტორების შეყვანით.

2.შესაძლებლობები

DALL-E 2-ს შეუძლია შექმნას რეალისტური მანიპულაციები ბუნებრივ ენაზე შექმნილი ტექსტური დავალებებისგან. ასევე შეუძლია ისე შეიტანოს ან ამოშალოს ელემენტები, რომ საერთო სურათი არ დაირღვეს, იგულისხმება: ჩრდილები, ანარეკლები და ტექსტურა.

წყარო

ამას გარდა, შეუძლია უკვე არსებულ ფოტოებზე ინსპირაციით შექმნას ახალი ვარიაციები.

წყარო

კვირაზე მეტია, რაც ტვიტერზე ჰეშთეგით #dalle2 ათეულობით სხვადასხვა მანიპულაცია იდება, რომელიც საშუალებას გვაძლევს შეძლებისდაგვარად დავაკვირდეთ და ვნახოთ მართლა ისეთი “ჭკვიანია” დალი, როგორსაც ავტორები იუწყებიან?

გატესტვა და აუდიტორიის შეფასება ტესტირების შემდეგ

კიდევ ერთხელ რომ დავუბრუნდეთ, მთავარი რაც Dall-E 2-ს სხვა გენერაციული მოდელებისგან განასხვავებს, არის უნარი შეინარჩუნოს სემანტიკური კონსისტენცია/თანმიმდევრობა მის მიერ შექმნილ სურათებში.

ასე მაგალითად, ქვემოთ მოცემული სურათები(DALL-E 2 ბლოგ-პოსტიდან) შექმნილია ტექსტურის დავალების მიხედვით: „ცხენზე ამხედრებული ასტრონავტი“. ერთი აღწერის ბოლოში მითითებულია სტილი: „შესრულებული ფანქარში“, ხოლო მეორეს: „ფოტორეალისტურ სტილში“. ორივე ფოტოზე კონსისტენცია დაცულია, ასტრონავტი ამხედრებულია ცხენზე და ხელი წინ აქვს გაშვერილი.

წყარო

3.რამდენად მიკერძოებული შეიძლება იყოს სისტემა?

როცა აღფრთოვანება და აღტაცება ოდნავ ჩაქრა, ყურადღების გამახვილება დავიწყეთ სისტემის ხარვეზებსა და იმ პატერნებზე, რომელიც გაჩნდა. მიუხედავად იმისა, რომ სისტემა ჯერ ისევ ბეტა სტადიაზეა და ყველას არ შეუძლია გამოყენება, მათ ვინც გატესტა, გარკვეული ქცევა შენიშნა.

როგორც ზემოთ მუშაობის პრინციპებზე საუბრისას ავღნიშნეთ, როგორც ყველა ხელოვნური ინტელექტის მოდელი, Dall-E 2-ც მემკვიდრეობით იღებს მიკერძოებულობასა და დისკრიმინაციას, ვინაიდან და რადგანაც აქვს წვდომა ინტერნეტიდან ამოღებულ მილიონობით სურათსა და მის სათაურებთან. რასაც აღტაცების ნაწილიდან გადავყავართ იმედგაცრუებისკენ. მაგალითად, დალის სთხოვეს დაეგენერირებინა იურისტის სურათი. იხილეთ, დალის პასუხი მოთხოვნაზე.

წყარო OpenAI “Risks and Limitations”

როდესაც სისტემას სთხოვეს დაეგენერირებინა ბორტგამცილებელი, პასუხი იყო შემდეგი:

წყარო OpenAI “Risks and Limitations”

რა თქმა უნდა, თავად OpenAI აღიარებს რომ სისტემა ძალიან შორს არის სრულყოფისგან, ზემოთ მოყვანილი მაგალითები სწორედ მათი “Risks and Limitation” გვერდიდან არის აღებული. მკვლევრებმა სცადეს მსგავსი მიკერძოებული დამოკიდებულების აღმოფხვრა. მაგალითად, მათ სურდათ სექსუალური კონტენტის გაფილტვრა საწვრთნელი მონაცემებიდან, მაგრამ აღმოჩნდა, რომ ასეთ შემთხვევაში სისტემა ქალების უფრო ნაკლებ სურათს აგენერირებდა, რაც თავის მხრივ ქმნიდა სულ სხვა პრობლემას: საერთო ამოშლას.

ისმის კითხვა, თუ სისტემას აქვს ხარვეზები, მაშინ რა საჭირო იყო საერთოდ მისი გასაჯაროება? OpenAI ყურადღებას ამახვილებს იმ ფაქტზე, რომ მიკერძოებულობა ზოგადად ინდუსტრიის პრობლემაა და არა მხოლოდ ერთი კონკრეტული სისტემის.

დღეისათვის საცდელ ვერსიაზე წვდომა აქვს დაახლოებით 400 ინდივიდს (კომპანიის თანამშრომლებს, ბორდის წევრებს, მკვლევრებსა და ხელოვანებს). Dall-E 2-ის ავტორებს ურჩევნიათ მათ პროდუქტზე წვდომა ჰქონდეს მხოლოდ შეზღუდულ რაოდენობას და ისე შეისწავლონ ხელოვნური ინტელექტი, ვიდრე საჯაროდ ხელმისაწვდომი გახადონ დეველოპმენტის საწყის ეტაპზე. ამ ეტაპზე, უსაფრთხოების სისტემა სამ მთავარ საკითხს მოიცავს: მავნე კონტენტის გენერირების პრევენცია, ბოროტად გამოყენების პრევენცია და მომხმარებლების ეტაპობრივი ზრდა.

რაც შეეხება წვდომას სისტემასთან, შეგიძლიათ ავტორიზაცია გაიაროთ აქ და დაელოდოთ როდის მიიღებთ მოწვევას, თუმცა ლოდინი საკმაოდ დიდხანს მოგიწევთ.

4. რა მომავალს უწინასწარმეტყველებენ მას?

OpenAI-ის აღმასრულებელმა დირექტორმა, სემ ალტმანმა, თავის ბლოგზე, Dall-E 2-ის გამოშვება ზაფხულისთვის დააანონსა. ბევრი სპეკულირებს Dall-E 2-is სავარაუდო აპლიკაციებზე, მაგალითად სხვადასხვა სტატიებისთვის გრაფიკული მასალის მომზადება და სურათების დაედითება. საბოლოო მიზანია, რომ ერთადერთი ლიმიტი იყოს კარგი წარმოსახვის უნარი და არა ესა თუ ის ტექნიკური სქილები.

რა ფასად შემიძლია სურათის დაგენერირება? ალბათ ერთ-ერთი ყველაზე საინტერესო კითხვა იქნება მომხმარებლებისთვის. რა სტატიებსაც გავეცანი, თითქმის ყველგან ვარაუდობენ 5–10$ ფარგლებში, თუმცა ამ ეტაპზე დაზუსტებით რამის თქმა ცოტა რთულია. ჩემი კოლეგა ილუსტრატორები და გრაფიკული დიზაინერები უკვე გამოთქვმენ წუხილს იმაზე თუ რა ბედი ეწევა მათ ბიზნესს, თუ პროდუქტი ყველასათვის ხელმისაწვდომი გახდება. მიუხედავად იმისა, რომ ჯერ ყველაფერი წინ არის და სისტემა ჩამოყალიბების საწყის ეტაპებს გადის, არ მგონია ოდესმე გრაფიკული დიზაინერების საჭიროება საერთოდ გააქროს.

აქვე ისევ ვეჩეხებით პროდუქტის ბოროტად გამოყენების პრევენციის თემას, აზრი ორად იყოფა, ზოგი თვლის რომ ეს გაზრდის ინფორმაციის უზუსტობას, ხოლო მეორენი პრობლემას ვერ ხედავენ იმაში, რომ Stock photos მიერ მოწოდებული სურათები შეიცვალოს Dall-E 2-ის მიერ გენერირებული სურათებით.

ჩემთვის ცოტა უცნაურია არა-კომერციული მიზნით გამოყენების ქვეპუნქტი Content Policy-ის გვერდზე, სადაც ნათლად წერია, რომ

გამოყენება შესაძლებელია მხოლოდ არა-კომერციული მიზნით:

რადგანაც ეს არის ექსპერიმენტული კვლევითი პლატფორმა, დაგენერირებული სურათების კომერციული მიზნით გამოყენება არ არის შესაძლებელი, მაგალითად:

თქვენ არ შეგიძლიათ დაგენერირებული სურათების ლიცენზირება, გაყიდვა, გაცვლა ან სხვა სახის რაიმე ტრანზაქცია, არც ერთი ფორმით, მათ შორის, არც NFT-ის სახით.

მაგრამ რატომღაც, OpenSea-ზე უკვე არსებობს Dall-E 2-ის მიერ გენერირებული კოლექცია, თუმცა ავთენტურობა საკითხავია.

პირადად მე უკვე შემხვდა, რამდენიმე NFT არტისტი, რომელიც აქედანვე ეწინააღმდეგება პროდუქტს და შიშობს, რომ ეს NFT ნახატებს ფასეულობას საგრძნობლად დაუკარგავს.

ვინც ბოლომდე გაეცნობა ოფიციალურ წყაროს, შთაბეჭდილება დარჩება რომ ავტორებს მეტად კეთილშობილური მიზნები ამოძრავებთ, მათი იმედია, რომ Dall-E 2 მისცემს ადამიანს საშუალებას საკუთარი თავის შემოქმედებითად გამოსახვა მაქსიმუმადე აიყვანოს. სულ რომ არაფერი, იმაში მაინც დაგვეხმარება გავიგოთ როგორ აღიქვამენ ჩვენ სამყაროს ხელოვნური ინტელექტის სისტემები, რაც გადამწყვეტია Dall-E 2-ის მისიისთვის, შექმნას ხელოვნური ინტელექტი, რომელიც სარგებელს მოუტანს კაცობრიობას.

--

--

Elenee Ch

Haya! 👋 Ene here! I’m spending my free time making illustrations, AI research and read about UX/UI.