Ученые выяснили пределы сжатия текста в языковых нейросетях

09.06.2025, 12:15 , Стася Шардакова

Учёные из России и Великобритании представили метод, который позволяет сжимать тексты объёмом до 1500 слов в один вектор — набор чисел, понятный искусственному интеллекту. Это открытие способно существенно повлиять на развитие языковых моделей и технологий обработки текстов.

Как пояснили в Институте искусственного интеллекта AIRI, подобный вектор может управлять поведением модели, состоящей из миллиардов параметров. Вектор задаёт направление генерации текста, и модель строго его придерживается. По мнению экспертов, это открывает путь к более компактным и мощным ИИ-системам.

Что стоит за этим открытием

Современные языковые модели работают с текстом, разбивая его на токены — отдельные слова или их части. Каждому токену соответствует математический вектор. До недавнего времени учёные не знали, как много слов можно «сжать» в один вектор без потерь информации.

В рамках исследования специалисты проверили эту возможность на шести открытых моделях: Pythia, OPT, OLMo, Mamba, LLaMA и Sheared-LLaMA. Они использовали тексты, составленные из случайных рассказов и публикаций с онлайн-платформ.

Что показали результаты

Наиболее эффективно с задачей справились модели из семейства LLaMA, которые теоретически способны сжимать до 1500 слов в один вектор. Остальные модели показали меньшие значения — от 80 до 512 токенов.

При этом исследователи обнаружили важный факт: в реальных условиях модели используют лишь от 10 до 30 процентов потенциала каждого вектора. Это значит, что существует большой резерв для оптимизации нейросетей.

Почему это важно

  • Повышение производительности. Можно создавать более лёгкие и быстрые модели, не теряя качество обработки текста.

  • Экономия вычислительных ресурсов. Сжатие длинных текстов в один вектор снижает нагрузку на системы.

  • Новые методы управления ИИ. Возможность задавать поведение модели заранее расширяет сценарии применения, от чат-ботов до интеллектуального анализа данных.

  • Перспективы развития

    Учёные считают, что неиспользованный объём вектора можно направить на исправление ошибок в тексте, более точное кодирование информации и устойчивость модели к сбоям. Это делает исследование значимым шагом в развитии генеративного искусственного интеллекта.