Дифузійна AI модель від Intel Labs за текстами генерує 360-градусні зображення

26 июнь, 2023 - 14:35

Дифузійна AI модель від Intel Labs за текстами генерує 360-градусні зображення

Intel Labs у співпраці з Blockade Labs представили модель прихованої дифузії для 3D (LDM3D, Latent Diffusion Model for 3D), у якій використовується генеративний ШІ для створення реалістичного візуального 3D-контенту. Зазначається, LDM3D може зробити революцію у створенні контенту, додатках метавсесвіту та цифровому досвіді, перетворивши широкий спектр галузей, від розваг та ігор до архітектури та дизайну.

«Технологія генеративного штучного інтелекту спрямована на подальше розширення людської творчості та економію часу. Однак більшість сьогоднішніх генеративних моделей ШІ обмежені створенням 2D-зображень, і лише мало хто може генерувати 3D-зображення з текстових підказок. На відміну від наявних моделей прихованої стабільної дифузії, LDM3D дозволяє користувачам генерувати зображення та карту глибини із заданої текстової підказки, використовуючи майже таку кількість параметрів. Вона забезпечує більш точну відносну глибину для кожного пікселя зображення порівняно зі стандартними методами постобробки для оцінки глибини та заощаджує розробникам значний час при розробці сцен», - зазначив Васудєв Лал (Vasudev Lal), науковий співробітник AI/ML, Intel Labs.

Це дослідження може революціонізувати те, як ми взаємодіємо з цифровим контентом, дозволяючи користувачам сприймати текстові підказки раніше немислимими способами. Зображення та карти глибини, згенеровані LDM3D, дозволяють користувачам перетворити текстовий опис безтурботного тропічного пляжу, сучасного хмарочоса або науково-фантастичного всесвіту на деталізовану панораму на 360 градусів. Ця здатність збирати докладну інформацію може миттєво підвищити загальний реалізм та занурення, дозволяючи створювати інноваційні програми для різних галузей, від розваг та ігор до дизайну інтер'єрів та списків нерухомості, а також віртуальних музеїв та імерсивної віртуальної реальності (VR).

Модель LDM3D була навчена на наборі даних, створеному з підмножини 10 000 зразків бази даних LAION-400M, що містить понад 400 мільйонів пар зображень та підписів. Команда використовувала модель глибокої оцінки Dense Prediction Transformer (DPT) (раніше розроблену Intel Labs) для анотування навчального корпусу. Модель DPT-large забезпечує дуже точну відносну глибину кожного пікселя зображення. Набір даних LAION-400M був створений для дослідницьких цілей, щоб забезпечити можливість тестування моделі навчання у ширшому масштабі для широкого кола дослідників та інших зацікавлених спільнот.

Модель LDM3D навчається на суперкомп'ютері Intel AI на базі процесорів Intel Xeon та прискорювачів Intel Habana Gaudi AI. Отримана модель та конвеєр поєднують згенероване RGB-зображення та карту глибини для створення 360-градусних уявлень для імерсивного досвіду.

Щоб продемонструвати потенціал LDM3D, дослідники Intel та Blockade розробили DepthFusion, додаток, який використовує стандартні 2D-фотографії RGB та карти глибини для створення захватного та інтерактивного огляду на 360 градусів. DepthFusion використовує TouchDesigner, мову візуального програмування на основі вузлів для інтерактивного мультимедійного контенту в реальному часі, щоб перетворювати текстові підказки на інтерактивні та захватні цифрові враження. Модель LDM3D є єдиною моделлю для створення як RGB-зображення, так і його карти глибини, що призводить до економії пам'яті та зниження затримки.

Впровадження LDM3D та DepthFusion прокладає шлях до подальшого розвитку генеративного штучного інтелекту з кількома уявленнями та комп'ютерного зору. Intel продовжить вивчати можливості використання генеративного ШІ для розширення можливостей людини та створення сильної екосистеми досліджень та розробок у галузі ШІ з відкритим вихідним кодом, що демократизує доступ до цієї технології. Продовжуючи активну підтримку Intel відкритої екосистеми у сфері штучного інтелекту, LDM3D надається з відкритим вихідним кодом через HuggingFace. Це дозволить дослідникам і фахівцям зі штучного інтелекту ще більше покращити цю систему і налаштувати її для додатків користувача.