Валидация навыков для плагинов
⏱️ Примерное время: ~12 минут · 🎯 Урок 12 курса «Введение в Claude Cowork»
Цели обучения
К концу этого урока вы сможете:
- Объяснить, что такое eval и почему это важно, прежде чем делиться навыком или полагаться на него
- Провести лёгкий eval через skill-creator
Почему это важно
Когда вы создаёте навык или объединяете несколько навыков в плагин, вы по сути создаёте небольшой продукт, которым будут пользоваться другие люди. И как с любой вещью, которую вы передали бы коллеге — шаблоном, моделью в таблице, чек-листом, — её стоит обкатать, прежде чем она покинет ваш стол.
Когда вы пользуетесь навыком, который сами создали, вы знаете, как обойти любые проблемы или сбои. Вы точно знаете, о чём его просить, какие файлы ему дать и как должен выглядеть ответ. У вашего коллеги ничего этого нет. Он может сформулировать запрос немного иначе, передать чуть другие входные данные или столкнуться с пограничным случаем — необычной, но реальной ситуацией, например запросом, который чуть выходит за рамки того, для чего навык был задуман. Именно тут навыки обычно спотыкаются, а человек, который ими пользуется, не поймёт почему.
Тестирование навыка с помощью evals — сокращение от evaluations (проверок) — это способ выявить такие спотыкания раньше, чем это сделает кто-то другой. Не пугайтесь этого слова. Eval — это просто пробный прогон: внутрь поступает реалистичный запрос, вы смотрите, что получается на выходе, и говорите Claude, что исправить. Никакого кода, никаких тестовых скриптов — только ваше суждение о том, достаточно ли хорош результат, чтобы поставить под ним своё имя.
Как устроена система evals
Когда вы создаёте навык с помощью skill-creator — встроенного помощника Claude для создания навыков, — он проводит вас через evals как часть процесса. Вот как это на самом деле выглядит.
Skill-creator придумывает два или более реалистичных промпта, которые кто-то мог бы использовать с вашим навыком. Для каждого промпта он создаёт пару результатов:
- Один, где Claude использует ваш навык
- Один, где Claude отвечает на тот же промпт без вашего навыка
Второй — это точка сравнения. Он нужен, чтобы вы могли увидеть бок о бок, какую разницу на самом деле вносит ваш навык — не просто «нормальный ли это результат», а «лучше ли этот результат того, что Claude сделал бы сам по себе».
Просмотрите каждую пару и дайте обратную связь обычным языком прямо на странице проверки. Читая каждую пару, вы по сути отвечаете на два вопроса:
- Версия с навыком — та, которую я бы использовал? Если да — отлично, отметьте, что сделало её лучше, чтобы навык продолжал так делать.
- Если нет — чего не хватает или что не так? Будьте конкретны. «Тон слишком формальный» или «пропущено краткое резюме» дают Claude то, над чем можно работать; «это как-то не то» — нет.
Как только вы отправите свою обратную связь, Claude переработает навык за вас на основе того, что вы сказали.
Итерируйте навык
Ваша обратная связь и есть исправление. Как только вы её отправляете, Claude обновляет навык — переписывает инструкции, корректирует примеры, уточняет то, что он запрашивает, — и вы можете снова прогнать те же промпты, чтобы увидеть, закрепилось ли изменение.
Меняйте по одной вещи за раз. Если первый раунд показал, что навык слишком многословен и в нём не хватает раздела, выберите то, что важнее, исправьте, перезапустите, а затем вернитесь к ещё одной проверке. Вы сможете понять, что действительно сдвинуло дело с мёртвой точки. Если после правки вас всё ещё не устраивают результаты — запустите снова: это цикл, а не одноразовый барьер. Большинство навыков готовы после одного-двух раундов. Планка для выпуска навыка — для себя, для коллеги — это не идеальные evals. Это то, что важные для вас случаи проходят ощутимо лучше базового варианта, и что вы назвали те случаи, которые пока не обрабатываете.
А если результаты уже выглядят отлично с первого прохода? Вы закончили. Evals — это не обруч, через который нужно прыгать; они нужны тогда, когда вам нужна уверенность, а не ради церемонии.
Попробуйте сами
Пройдите через макет проверки eval ниже — три промпта, у каждого результат с навыком и без навыка бок о бок.
Прочитайте eval
Eval — это просто два результата бок о бок и несколько правил того, как выглядит «хорошо». Ваша задача — выбрать тот, который вы бы действительно отправили, и сказать Claude, что изменить.
Типичный случай
Резюме обычной командной синхронизации
- Запустить новый онбординг-флоу для 10% новых регистраций начиная с понедельника.
- Поставить на паузу редизайн внутреннего тура до окончания запуска.
- Майя — финализировать план развёртывания к пятнице 9 мая.
- Девон — настроить замер показателя активации для нового флоу к среде 7 мая.
- Прия — подготовить черновик анонса к понедельнику 12 мая.
- Нужно ли юридическое согласование нового текста до выхода на 10%?
Правила дома
- ✓ Начинается с решений
- ✓ У каждого пункта действия есть ответственный и дата
- ✓ Открытые вопросы выделены
- ✓ Менее 150 слов
Сегодня утром команда провела продуктивное обсуждение нового онбординг-флоу. После рассмотрения последних макетов группа решила двигаться вперёд с запуском на 10% начиная со следующего понедельника. Редизайн внутреннего тура тоже поднимался, но был достигнут консенсус вернуться к нему после запуска.
Майя вызвалась финализировать план развёртывания, а Девон упомянул, что займётся настройкой замеров. Прия собирается подготовить что-нибудь для анонса. Также были некоторые обсуждения о том, нужно ли юристам высказаться по новому тексту, — команда не пришла к выводу по этому поводу.
В целом продуктивная встреча с ясными следующими шагами.
Правила дома
- ✗ Начинается с решений
- ✗ У каждого пункта действия есть ответственный и дата
- ✗ Открытые вопросы выделены
- ✓ Менее 150 слов
*Какой из них вы бы отправили?*
*Одна вещь, которую вы сказали бы Claude изменить.*
Беспорядочные входные данные
Резюме стендапа из черновых, частично вставленных заметок
- Перенести вебинар с 14 мая на 21 мая, чтобы избежать пересечения с клиентской конференцией.
- Джордан — обновить страницу регистрации и заново разослать приглашения к понедельнику 5 мая.
- (ответственный неясен — уточнить у Прии?) — переработать каденцию писем под новую дату к среде 7 мая.
- Нужно ли уведомить партнёров, которые продвигали изначальную дату?
- Кто отвечает за логистику дня в перенесённую дату?
Правила дома
- ✓ Начинается с решений
- ✓ У каждого пункта действия есть ответственный и дата (или помечен)
- ✓ Открытые вопросы выделены
- ✗ Менее 150 слов (164)
Команда согласилась перенести вебинар с 14 мая на 21 мая, потому что клиентская конференция проходит на той же неделе. Джордан обновит лендинг и заново разошлёт приглашения.
Прия переработает каденцию писем под новую дату. Команда также обсудила, как поступить с партнёрами, которые уже продвигали изначальную дату, и логистику дня для новой даты.
Хороший прогресс — все согласованы по поводу переноса.
Правила дома
- ✓ Начинается с решений
- ✗ У каждого пункта действия есть ответственный и дата (выдуман ответственный)
- ✗ Открытые вопросы выделены (спрятаны в тексте)
- ✓ Менее 150 слов
*Какой из них вы бы отправили?*
*Одна вещь, которую вы сказали бы Claude изменить.*
Форма против содержания
Резюме для руководителя, который читает только первые три строки
- Перенести запуск с 28 мая на 12 июня, чтобы поглотить задержку QA.
- Придержать план коммуникаций с клиентами, пока новая дата не зафиксирована.
- Сэм — разослать пересмотренный план запуска к понедельнику 5 мая.
- Влияет ли новая дата на показатель Q2, который мы взяли на себя?
Правила дома
- ✓ Начинается с решений
- ✓ У каждого пункта действия есть ответственный и дата
- ✓ Открытые вопросы выделены
- ✗ Заголовок в первых трёх строках (дата отодвинута на 5-ю строку)
Запуск перенесён на 12 июня — QA нужны ещё две недели на новый флоу аутентификации, а выпуск 28 мая оставил бы нас с частичным релизом.
Коммуникации с клиентами на паузе, пока дата не зафиксирована. Сэм разошлёт пересмотренный план к понедельнику 5 мая.
Открыто: влияет ли новая дата на обязательство по Q2? — помечено для подтверждения финансами.
Правила дома
- ✓ Начинается с решений
- ✓ У каждого пункта действия есть ответственный и дата
- ✗ Открытые вопросы выделены (спрятаны в тексте)
- ✓ Заголовок в первых трёх строках
*Какой из них вы бы отправили?*
*Одна вещь, которую вы сказали бы Claude изменить.*
Это полный раунд eval. Когда речь о вашем навыке, Claude берёт ваш выбор и обратную связь и перерабатывает его за вас.
Для каждой пары: выберите версию, которую вы бы действительно отправили, и напишите одну строку обратной связи, которую вы дали бы Claude. Вот и весь цикл.
Что дальше
В следующем уроке вы перейдёте от «это работает для меня» к «это работает для команды» — к паттернам и решениям, которые превращают личные рабочие процессы в общую инфраструктуру.
Обратная связь
По мере прохождения курса нам будет интересно услышать, как вы применяете его концепции в своей работе, а также любые ваши отзывы. Поделитесь обратной связью здесь.
*Адаптировано с русским переводом. Оригинал: © 2025 Anthropic. All rights reserved.*