Как новый фреймворк LGTM улучшит графику Apple Vision Pro

Как новый фреймворк LGTM улучшит графику Apple Vision Pro Инструкции

Исследователи Apple представили новый фреймворк, который обещает значительно улучшить рендеринг 3D-сцен с высокой разрешающей способностью. Это может стать настоящим прорывом для устройств, таких как Apple Vision Pro. Давайте подробнее разберёмся, что стоит за этой разработкой.

Контекст исследования

В исследовании под названием «Меньше гауссианов, больше текстур: 4K Feed-Forward Textured Splatting» команда ученых из Apple и Гонконгского университета предложила новый фреймворк, который они назвали LGTM.

Авторы работы объясняют, что с увеличением разрешения существующие методы 3D Gaussian Splatting становятся слишком затратными для обработки, что делает рендеринг высококачественных сцен всё более сложной задачей.

Как новый фреймворк LGTM улучшит графику Apple Vision Pro 2

Что такое Feed-forward 3D Gaussian Splatting?

По сути, это метод, который позволяет AI быстро преобразовывать одно или несколько изображений в 3D-сцену, доступную для просмотра с разных углов. Недавно мы обсуждали SPLAT - открытую модель от Apple, использующую этот метод, которая создаёт 3D-виды из одного 2D-изображения с впечатляющими результатами.

Методы feed-forward 3D Gaussian Splatting отличаются от подходов, основанных на оптимизации каждой сцены поэтапно. Хотя последние, как правило, обеспечивают более стабильные результаты, они требуют значительно больше времени на обработку. В то время как более быстрые методы, такие как feed-forward, сталкиваются с проблемами при масштабировании на более высокие разрешения.

Фреймворк LGTM

Как новый фреймворк LGTM улучшит графику Apple Vision Pro 3

Чтобы решить эту проблему, исследователи предложили фреймворк LGTM, который «разделяет геометрическую сложность и разрешение рендеринга». Это означает, что структура сцены отделяется от её визуальных деталей, позволяя системе сохранять простоту геометрии, добавляя текстуры для высококачественного отображения.

Важно отметить, что LGTM не является самостоятельной моделью. Он основывается на существующих методах feed-forward, улучшая представление деталей за счёт наложения текстур на геометрические элементы.

Как это работает?

Исследователи применили двухступенчатый подход:

Как новый фреймворк LGTM улучшит графику Apple Vision Pro 4
  • Сначала модель изучает структуру сцены на основе низкоразрешающих изображений и проверяет результат с высококачественными эталонными данными. Это заставляет модель учиться производить геометрию, которая выглядит корректно даже при рендеринге на 2K или 4K, избегая артефактов.
  • Второй этап включает дополнительную сеть, сосредоточенную на внешнем виде, которая обрабатывает высококачественные изображения и изучает детализированные текстуры для каждого геометрического элемента.

В результате получается фреймворк, который позволяет существующим системам генерировать детализированные 4K-сцены без значительного увеличения вычислительных потребностей, что делает предыдущие методы менее практичными при высоких разрешениях.

Что это значит для Apple Vision Pro?

На данный момент Apple Vision Pro оснащён двумя дисплеями с общим количеством около 23 миллионов пикселей, что означает, что каждому глазу достаётся больше пикселей, чем на 4K-телевизоре.

Как новый фреймворк LGTM улучшит графику Apple Vision Pro 5

Как показало исследование, методы feed-forward 3D Gaussian Splatting испытывают трудности при таких разрешениях. Дисплеи могут справляться с этим, но быстрая и точная генерация сцены становится вычислительным узким местом.

Фреймворк LGTM может помочь решить эту проблему для Apple Vision Pro, что, в свою очередь, обеспечит более плавную работу и более чёткие визуальные эффекты в ситуациях, где требуется использование методов feed-forward 3D Gaussian Splatting.

Заключение

В конечном итоге, это может открыть новые возможности для наслаждения детализированными и иммерсивными средами, а также более реалистичными эффектами «прозрачности», сохраняя при этом разумные требования к обработке.

Чтобы увидеть LGTM в действии, вы можете ознакомиться с проектной страницей, где представлены методы, такие как NoPoSplat, DepthSplat и Flash3D, с использованием LGTM и без него, как для одно-, так и для двухвидовых входов.

Материал подготовлен на основе публикации с сайта 9to5Mac. Фото: 9to5Mac
Поделиться с друзьями
Денис Логинов
Оцените автора
iPhonec.ru
Добавить комментарий