Компютърни програми вече могат да създават невиждани досега изображения само за броени секунди. Необходимо е единствено да въведете няколко думи в тези програми, които действително ще произведат картина, която съвпада с въведеното описание, независимо колко странно изглежда.
Изображенията не са перфектни. Често включват чудатости като ръце с допълнителни пръсти например или форми, които са изкривени по неестествен начин. Генераторите на изображения, имащи проблеми с въведения текст, обикновено създават собствени безсмислени знаци или си измислят собствена азбука.
Но тези програми за създаване на изображения, които изглеждат като играчка днес, могат да се окажат началото на нова голяма вълна в технологиите. Специалистите наричат това генеративен модел или генеративен изкуствен интелект, пише CNBC.
Според Дейвид Бейзел от компанията за рискови инвестиции NextView Ventures, генеративният изкуствен интелект бързо се е превърнал от нещо, за което никой не говори, в актуална тема в настоящето.
През последните години, генеративният изкуствен интелект стана толкова добър, че вдъхнови хора да напускат работните си места, за да стартират собствени компании с мечтата за бъдеще, в което изкуственият интелект може да създаде ново поколение от технологични гиганти.
Изкуственият интелект се развива бурно през последното половин десетилетие, но по-голямата част от подобренията се свързват с обработката на съществуващи данни.
Но генеративните модели на база изкуствен интелект могат да правят нещо съвсем ново, което досега не беше виждано – те могат да създават, а не само да анализират.
„Впечатляващата част, дори за мен, е че е способно да съчинява нови неща”, казва Борис Дайма, създател на генеративния изкуствен интелект Craiyon. „Не само създава стари изображения, нови неща са, които могат да бъдат напълно различни от това, което сме виждали преди”, казва той.
Изображение: Screenshot/huggingface.co
Sequoia Capital, най-успешната компания за рискови инвестиции в историята, известна с ранните си вложения в компании като Apple и Google, коментира в публикация в сайта си, че „Генеративния изкуствен интелект има потенциала да генерира трилиони долари икономическа стойност”. Компанията предвижда, че тази технология може да промени всяка индустрия, която се нуждае от хора за създаването на оригинални неща – от гейминг индустрията до рекламата и правото.
Сякаш за да докажат това, от Sequoia Capital уточняват, че публикацията е създадена частично чрез GPT-3, генеративен изкуствен интелект, който генерира текст.
Как работи генеративният изкуствен интелект
Генерирането на изображения използва техники от машинно обучение, наречени дълбоко обучение, което е в основата на голямата част от напредъка в областта на изкуствения интелект, откакто забележителен документ от 2012 г. за класификацията на изображения, поднови интереса към технологията.
Дълбокото обучение използва модели, обучавани върху големи масиви от данни, докато програмата разбере взаимовръзките в тези данни. След това моделът може да бъде използван за приложения, като такива, които идентифицират дали на изображението има куче или превеждат текст.
Генераторите на изображения работят като преобръщат този процес с главата надолу. Вместо да превеждат от английски на френски, например, те превеждат фраза на английски в изображение. Обикновено това се случва в две основни стъпки, обработване на първоначалната фраза и превръщане на тези данни в картина.
Изображение: Screenshot/midjourney.com
Първата вълна от подобни програми бяха базирани на подход наречен GAN, генеративни състезателни мрежи. Този подход е използван в популярни инструменти, който генерират снимки на несъществуващи хора. Като цяло те работят чрез два модела, който се състезават помежду си в създаването на изображение, което съвпада най-точно със заложената цел.
По-новите подходи като цяло използват трансформатори, които за първи път са описани в документ на Google от 2017 година. Това е нововъзникваща техника, която може да се възползва от по-мащабни бази с данни, като може да струва милиони долари за обучение.
Първият генератор на изображения, който привлече вниманието, бе DALL-E – програма обявена пез 2021 година от OpenAI, добре финансиран стартъп в Силициевата долина. OpenAI пуснаха още по-мощна версия през тази година.
По думите на Кристиан Кантрел, разработчик, фокусиран върху генеративния изкуствен интелект, този софтуер е бил първия момент, в който машините са започнали да изглеждат почти като хора.
Друг популярен генератор на изображения е Craiyon, познат преди като Dall-E Mini, който е достъпен в интернет. Потребителите могат да въведат фраза, която да се превърне в изображение само за броени минути.
Проектът стартира през юли 2021 година, като понастоящем чрез него се генерират около 10 млн. изображения на ден, добавяйки до 1 млрд. изображения, който до сега не са съществували, става ясно от думите на Дайма.
Той е превърнал Craiyon в своя работа на пълен работен ден след като активността в платформата скочила до небето в началото на тази година.
Той посочва, че се е фокусирал върху рекламата, за ад държи сайта си безплатен за потребителителите, тъй като разходите за поддържане на сървъра са доста високи.
Акаунт в Twitter, който е посветен на най-странните и креативни изображения, генерирани чрез Craiyon, вече има над 1 млн. последователи, като редовно публикува изображения на все по-невероятни или абсурдни сцени.
Изображение: Screenshot/huggingface.co
Но програмата, която предизвиква най-сериозен интерес е Stable Diffusion, която бе публикувана публично през месец август тази година. Кодът за нея е достъпен в GitHub и може да се подкара на компютри, не само в облака или чрез програмен интерфейс. Това вдъхновява потребители да изменят програмния код за свои цели или да изграждат неща върху него.
Така например, Stable Diffusion бе интегриран в Adobe Photoshop чрез плъгин, позволявайки на потребителите да генерират фон и други части от изображения, които могат директно да се манипулират в приложението, чрез слайдъри и други инструменти на Photoshop, превръщайки генеративния изкуствен интелект от нещо, което произвежда готови картини в инструмент, който може да бъде използван от професионалисти.
„Исках да срещна професионалисти, където се подвизават и исках да им дам възможност да внедрят изкуствен интелект в работния си процес, а не да взривявам работния им процес”, казва Кантрел, разработчик на плъгина.
Кантрел, който има 20-години с Adobe, преди да напусне работата си през тази година, за да се фокусира върху генеративния изкуствен интелект, коментира, че плъгина е бил свалян десетки милиони пъти. Художниците му казват, че го използват по хиляди начини,които той не е могъл да предвиди, като анимиране на Годзила или създаване на снимки от Спайдърмен във всяка поза, в която художникът може да си представи.
Стартъпи, облачни услуги, чипове
Някои инвеститори разглеждат генеративния изкуствен интелект като потенциален носител на огромна промяна, подобно на смартфоните по време на ранния интернет.
Подобни събития обикновено бързо разширяват пазарната аудиторият на дадени продукти, които първоначално се използват от група ентусиасти, след което стават част от ежедневието на бизнес професионалисти, а накрая биват използвани на практика от всички.
„Не е като изкуственият интелект да го нямаше преди, както и не е да сме нямали мобилност преди 2007 година”, казва дяловият инвеститор Бейзел. „Но е като моментът, в който всичко се събира на едно място. Истински хора, като крайни потребители, могат да експериментират и да видят нещо, което е различно от преди”, казва той.
Според Кантрел, генеративното машинно обучение наподобява нещо дори още по-фундаментално – базата данни. Първоначално въведена от компании като Oracle през 70-те години на миналия век като начин за съхранение и организиране на масиви от информация в ясно колони и редове, мислете за огромна Excel-ска таблица, базите данни са преосмислени, за да съхраняват всякакъв тип данни за всеки възможен тип изчислително приложение - от мрежата до мобилните устройства.
„Машинното обучение е подобно на базата данни, където данните бяха огромен стимул за уеб базираните приложения. Почти всяко приложения, което използвате или сте използвали в живота си е на база база данни”, казва Кантрел. „Никой не се интересува как работят базите данни, те просто знаят как да ги използват”, добавя той.
Изображение: Screenshot/midjourney.com
Майкъл Демпси, управляващ партньор в Compound VC, коментира, че моменти, в които технологиите се превръщат от лабораторен пробив до нещо масово са „много редки” и привличат вниманието на дяловите инвеститори, които предпочитат да правят залози на поле, което може да се окаже огромно в бъдеще. Все пак той предупреждава, че интересът към генеративния изкуствен интелект може да се окаже просто „фаза на любопитство”, близка до пика на интереса.
Компании, основани по време на тази ера, могат да се провалят, тъй като не са фокусирани върху конкретни ползи, за които потребителите и бизнеса биха били готови да плащат.
Други представители на сектора вярват, че стартъпите, които са в основната на развитието на днес, могат евентуално да бъдеще да се конкурират със софтуерните гиганти, които понастоящем доминират пространството на изкуствения интелект, сред които Google, Meta и Microsoft.
„Ще има редица компании за трилион долара – цяло поколение от стартъпи, които ще надграждат върху този нов начин на правене на технологии”, казва Клемент Деланг, изпълнителен директор на Hugging Face, платформа за разработчици, която съдържа предварително обучени модели, включително тези на Craiyon и Stable Diffusion. Неговата цел е да превърне изкуствения интелект в нещо лесно за програмистите.
Някои от тези компании вече се радват на значителни инвестиции.
Hugging Face бе оценявана на 2 млрд. долара след като набра средства по-рано през тази година от инвеститори включващи Lux Capital и Sequoia. OpenAI, най-обещаващият стартъп в този сектор, получи над 1 млрд. долара финансиране от Microsoft и Khosla Ventures.
Междувременно, Stability AI, създателят на Stable Diffusion, е в разговори за набиране на финансиране при оценка на компанията от 1 млрд. долара, по данни на Forbes.
Доставчиците на облачни услуги като Amazon, Microsoft и Google също могат да се възползват в бъдеще.
Meta и Google назначиха някои от най-обещаващите таланти в тази сфера с надеждата, че някои подобрения могат да бъдат интегрирани в продуктите на компанията. През септември, Meta обяви програма на база изкуствен интелект на име “Make-A-Video”, която прави още по-голяма крачка, чрез генерираните на видео, не само на изображения.
„Това е невероятен прогрес”, казва Марк Зукърбърг, изпълнителен директор на Meta, чрез публикация във Facebook. „Доста по-трудно е да се генерира видео от снимки, защото освен да генерира коректно всеки пиксел, системата също трябва да предвиди как те ще се променят във времето”, казва той.
Google също обявиха код за програма на име Phenaki, която също превръща текст във видео, като може да генерира кадри, продължаващи минути.
Изображение: Screenshot/huggingface.co
Възникващата индустрия може да се окаже в интерес и на компании като nVidia, AMD и Intel, които произвеждат графични процесори, които са идеални за обучението и разгръщането на модели изкуствен интелект.
По време на конференция през този месец, изпълнителният директор на nVidia Дженсън Хуанг говори за генеративния изкуствен интелект като ключов момент за новите чипове на компанията. Според него, тези програми могат да „революционизират комуникациите”.
Крайните потребители, които генерират печалби на полето на генеративния изкуствен интелект, засега са нещо рядко. Доста голяма част от дейностите в наши дни се ограничават до безплатни или нискобюджетни експерименти. Например, някои писатели/журналисти експериментират с тези програми за да създават илюстрации за материалите си (точно както в този текст, бел. ред.).
Един пример за работата на nVidia е употребата на модел за генерирани на нови трийзмерни изображения на хора, животни, превозни средства или обзавеждане, които могат да се използват във виртуален свят, примерно в игра.
Етични проблеми
Всеки, който разработва генеративен изкуствен интелект обаче трябва да се справя с някои етични проблеми, които вървят ръка за ръка с генераторите на изображения.
На първо място стои въпросът с хората, които се занимават с дейности, свързани с рисуване. Въпреки, че много програми изискват мощни графични процесори, компютърно генерираното съдържание е доста по-евтино спрямо работата на професионален илюстратор, която може да струва стотици долари на час.
Изображение: Screenshot/huggingface.co
Това може да се окаже проблем за художниците, продуцентите на видео и други, която работа е свързана с креативността. Например, човек, чиято работа е да създава маркетингови материали може да бъде заместен от компютърна програма в близко бъдеще.
„Оказва се, че моделите за машинно обучение навярно ще започнат да бъдат поръчвани в степен по-висока, по-бърза и по-евтина спрямо човек”, казва Демпси от Compound VC.
Освен това въпросът с оригиналността и собствеността на правата също виси.
Генеративните изкуствени интелекти са обучени на база огромна база данни от изображения, като съществува дебат кой държи авторските права над генерираните картини и снимки.
Художник, който печели състезание в Колорадо, използвайки изображение, почти изцяло създадено чрез генеративен изкуствен интелект на име MidJourney, посочва, че е избрал изображението от стотици картини, които е генерирал, след което го е обработил на Photoshop.
Някои изображения, създадени чрез Stable Diffusion, имат воден знак, което предполага, че това е част от оригиналната база данни, която е със защитени авторски права.
Изображение: Screenshot/huggingface.co
През миналия месец, Getty Images забрани достъпа на потребители, които качват снимки, генерирани чрез изкуствен интелект, тъй като компанията е притеснена относно правните въпроси, свързани с авторските права.
Генераторите за изображения могат да бъдат използвани и за създаването на изображения със запазени авторски права, като персонажи от популярни филми, сериали или игри.
С напредването на технологията, потребителите могат да се окажат заблуждавани за конкретни събития или твърдения чрез снимки или видео, генерирано чрез изкуствен интелект.
Така или иначе, генераторите на съдържание имат потенциала да се окажат следващото голямо нещо в света на технологиите – поле, което помни както много успехи, така и безчет провали.
*Всички изображения, поместени в материала, са генерирани чрез изкуствен интелект специално за целите на този текст;