Apple: ИИ для тестирования идей и улучшения ответов

В мире технологий Apple всегда стремится к инновациям, и недавние исследования их команды открывают новые горизонты в области искусственного интеллекта. В новой работе исследователи представили креативную структуру, которая значительно улучшает качество ответов больших языковых моделей (LLM) в математическом анализе, генерации кода и других областях. Давайте подробнее рассмотрим, как именно это работает.

Содержание

Слияние диффузии и автогрессии
Как работает LaDiR
Эффективность LaDiR

Слияние диффузии и автогрессии

В недавно обновлённом исследовании под названием LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning команда Apple, совместно с учеными из Университета Калифорнии в Сан-Диего, описала интересный способ улучшения качества ответов, генерируемых LLM в определённых областях.

Как Apple улучшает ИИ для тестирования идей в параллели 2

Ранее мы обсуждали модели диффузии, которые генерируют текст, проходя через множество токенов параллельно, в отличие от автогрессивных моделей, которые работают, предсказывая токены по одному. Apple также исследовала применение диффузионных моделей для предсказания сворачивания белков и кодирования, что является бесконечно интересной темой.

Суть LaDiR заключается в том, что он объединяет оба подхода: во время процесса рассуждения используется диффузия, а затем финальный вывод генерируется автогрессивно.

Более того, LaDiR работает с несколькими путями рассуждения параллельно, каждый из которых проходит свой собственный процесс диффузии. Механизм, встроенный в систему, побуждает их исследовать различные возможности, что приводит к созданию разнообразного набора кандидатных ответов.

Как Apple улучшает ИИ для тестирования идей в параллели 3

Как работает LaDiR

Во время времени вывода, когда модель фактически формирует ответ на запрос пользователя, LaDiR генерирует серию скрытых блоков рассуждений, каждый из которых начинается как случайный шаблон (или шум) и постепенно уточняется до более связного шага.

Как только модель определяет, что достаточно поразмыслила, она переключается на генерацию финального ответа автогрессивно, токен за токеном.

Как Apple улучшает ИИ для тестирования идей в параллели 4

Ключевой момент заключается в том, что LaDiR может одновременно обрабатывать несколько этих путей рассуждения, и механизм, встроенный в систему, побуждает её исследовать различные возможности, чтобы избежать преждевременного сходимости на одной идее, что сводит на нет всю суть процесса.

Важно отметить, что LaDiR не является совершенно новой моделью, а скорее рамочной структурой, которая строится на основе существующих языковых моделей. Она изменяет способ, которым модели рассуждают над проблемой, а не заменяет их полностью.

Эффективность LaDiR

Как Apple улучшает ИИ для тестирования идей в параллели 5

В исследовании команда применила LaDiR к модели Meta LLaMA 3.1 8B для математического анализа и планирования головоломок, а также к Qwen3-8B-Base для генерации кода.

На математических тестах LaDiR показал более высокую точность, чем существующие подходы, и продемонстрировал сильные результаты даже на более сложных задачах, выходящих за рамки привычных.

На тестах по генерации кода, таких как HumanEval, LaDiR выдал более надёжные результаты, значительно обойдя стандартную донастройку, особенно на более сложных задачах.

В задачах планирования головоломок, таких как игра Countdown, LaDiR исследовал более широкий спектр допустимых ответов, чем любая базовая модель, и находил правильные решения надежнее, чем все модели общего назначения. Однако он несколько уступил специализированной модели по точности в одном попытке.

Несмотря на то что некоторые аспекты работы LaDiR могут показаться довольно техническими, это стоит прочитать, если вас интересуют внутренние механизмы больших языковых моделей и новые подходы к улучшению их работы в генерации текста.

Материал подготовлен на основе публикации с сайта 9to5Mac. Фото: 9to5Mac