Meta ще пуска генератор на изображения с изкуствен интелект

През последните две години генераторите на изображения, базирани на алгоритми с изкуствен интелект станаха почти ежедневие и на пръв поглед не изглежда, че се различават много помежду си по начина на работа, но Meta твърди, че новият модел CM3Leon, разработен от инженерите на компанията ще е по-добра алтернатива от останалите.

Според разработчицитеm моделът Meta CM3Leon се отличава с висока производителност при преобразуване на текст в изображение. Освен товаm той е един от първите модели, които осигуряват обратната операция – създаване на надписи за изображения. Повечето съвременни генератори на изображения, включително OpenAI DALL-E, Google Imagen и Stable Diffusion, използват дифузия – процес на постепенно премахване на шума от оригиналното изображение с приближаването му към целевото изображение. Резултатът е убедителен, но този алгоритъм изисква значителни изчислителни ресурси, което прави подобни системи скъпи, а самите модели са бавни и просто не могат да функционират в реално време.

Как работи генератора на снимки?

Моделът CM3Leon работи по коренно различен начин – той се основава на алгоритъм за преобразуване, който оценява значимостта на изходните данни, независимо дали става въпрос за текст или изображение. Заслужава да се отбележи, че OpenAI първоначално изгради генератори на изображения, базирани на трансформаторни модели, но Image GPT беше заменен от трансформаторни алгоритми. CM3Leon е обучен с помощта на 2 милиона изображения, лицензирани от Shutterstock – най-мощната версия на модела има 7 милиарда параметъра – два пъти повече от DALL-E 2 на OpenAI. Той използва механизма за предварително обучение SFT (Supervised Fine-Tuning), който обикновено се среща в текстовите генератори. В резултат на това производителността на модела при генерирането на изображения и съставянето на описания за готовите изображения се е увеличила, а системата има възможност да редактира изображения чрез текстови команди, например „промени цвета на небето на яркосин“.

В резултат на това Meta CM3Leon приема много специфични команди като входни данни – до пикселната област на изображението, в която трябва да се намира определен обект. За сравнение, DALL-E пренебрегва подобни нюанси и често дори отказва да разположи обектите, директно посочени в инструкцията.