Ученые выяснили пределы сжатия текста в языковых нейросетях

pxhere.com
Учёные из России и Великобритании представили метод, который позволяет сжимать тексты объёмом до 1500 слов в один вектор — набор чисел, понятный искусственному интеллекту. Это открытие способно существенно повлиять на развитие языковых моделей и технологий обработки текстов.
Как пояснили в Институте искусственного интеллекта AIRI, подобный вектор может управлять поведением модели, состоящей из миллиардов параметров. Вектор задаёт направление генерации текста, и модель строго его придерживается. По мнению экспертов, это открывает путь к более компактным и мощным ИИ-системам.
Что стоит за этим открытием
Современные языковые модели работают с текстом, разбивая его на токены — отдельные слова или их части. Каждому токену соответствует математический вектор. До недавнего времени учёные не знали, как много слов можно «сжать» в один вектор без потерь информации.
В рамках исследования специалисты проверили эту возможность на шести открытых моделях: Pythia, OPT, OLMo, Mamba, LLaMA и Sheared-LLaMA. Они использовали тексты, составленные из случайных рассказов и публикаций с онлайн-платформ.
Что показали результаты
Наиболее эффективно с задачей справились модели из семейства LLaMA, которые теоретически способны сжимать до 1500 слов в один вектор. Остальные модели показали меньшие значения — от 80 до 512 токенов.
При этом исследователи обнаружили важный факт: в реальных условиях модели используют лишь от 10 до 30 процентов потенциала каждого вектора. Это значит, что существует большой резерв для оптимизации нейросетей.
Почему это важно
Повышение производительности. Можно создавать более лёгкие и быстрые модели, не теряя качество обработки текста.
Экономия вычислительных ресурсов. Сжатие длинных текстов в один вектор снижает нагрузку на системы.
Новые методы управления ИИ. Возможность задавать поведение модели заранее расширяет сценарии применения, от чат-ботов до интеллектуального анализа данных.
Перспективы развития
Учёные считают, что неиспользованный объём вектора можно направить на исправление ошибок в тексте, более точное кодирование информации и устойчивость модели к сбоям. Это делает исследование значимым шагом в развитии генеративного искусственного интеллекта.