Практика: рабочая память

⏱️ Примерное время: ~12 минут · 🎯 Урок 9 курса «Возможности и ограничения ИИ»

Естественный порыв при работе с AI — дать ему всё сразу. Вставить целый документ. Включить каждое сообщение. Добавить весь контекст, какой только удаётся найти. Чем больше информации, тем лучше ответы, верно?

Не всегда. Есть явление, которое интуитивно знакомо каждому, кто хоть раз готовился к экзамену в последнюю ночь: существует предел тому, сколько можно удержать в голове одновременно. И то, что находится в середине, исчезает первым.

Прежде чем обсудить, как это влияет на модели AI, давайте посмотрим, как это влияет на вас.

Тест на память

Слова, которые вы запомнили, скорее всего сгруппировались в начале и в конце списка. Середина теряется. Это эффект первичности–недавности (primacy–recency), и LLM демонстрируют точно такое же смещение.

Инструкции в начале и в конце контекстного окна выполняются. Середина «тонет». Именно поэтому больше контекста ≠ лучше результат — и именно поэтому в работе «Lost in the Middle» (Liu et al., 2023) обнаружили падение точности более чем на 30%, когда ключевые факты оказывались в центре длинного контекста.

U-образная кривая

То, что вы только что испытали, имеет название: эффект позиции в ряду (serial position effect). Психологи изучают его уже более ста лет. Элементы в начале списка выигрывают за счёт первичности (их чаще повторяют), а элементы в конце — за счёт недавности (они ещё свежи в памяти). Середине не достаётся ни того, ни другого преимущества.

Самое любопытное: большие языковые модели демонстрируют тот же паттерн. В 2023 году исследователи из Стэнфорда проверили, что происходит, когда ключевой факт размещают в разных позициях внутри длинного контекстного окна. Точность была наивысшей, когда факт стоял в самом начале или в самом конце, и падала более чем на 30%, когда он оказывался погребён в середине.

Это не случайная причуда. Это структурная особенность. Паттерны внимания в трансформерах естественным образом придают больший вес краям контекстного окна.

Что это значит для промптинга

Если вы вставите в промпт 20-страничный документ и зададите вопрос о чём-то на 11-й странице, модель с большей вероятностью упустит это, чем что-то со страницы 1 или страницы 20. Это имеет вполне реальные последствия для того, как вы выстраиваете контекст.

Практический совет прост: размещайте самые важные инструкции в начале и в конце контекста. Если какое-то ограничение обязательно должно быть соблюдено, сформулируйте его в начале системного промпта и повторите ближе к концу. Не рассчитывайте, что модель уделит равное внимание всему, что находится между ними.

Это отправная точка, а не потолок. По мере роста вашей беглости (AI Fluency) вы будете открывать всё более изощрённые способы выстраивать контекст так, чтобы модель надёжно понимала, что важно: используя то, где именно в окне находится информация, что включать, а что отсекать, и как не дать критичным инструкциям сползти в «мёртвую зону». Цель всегда одна и та же: сделать очевидным для Claude, что именно вам нужно.

Картина в целом

Деградация контекста — вот почему «просто дай больше контекста» не всегда ответ. Каждый кусок контекста, который вы добавляете, выталкивает другие куски глубже в середину — в «мёртвую зону» внимания. В этом и состоит ключевое напряжение инженерии контекста (context engineering): не только что включить, но и куда это поместить и что оставить за бортом.

Ваш собственный тест на память уже сказал вам об этом. Слова в середине исчезли. То же самое происходит внутри каждого длинного диалога, каждого вставленного документа, каждого контекстного окна, заполненного до краёв. Решение не в том, чтобы дать больше, — а в том, чтобы делать это умнее.