Валидация навыков для плагинов

⏱️ Примерное время: ~12 минут · 🎯 Урок 12 курса «Введение в Claude Cowork»

Цели обучения

К концу этого урока вы сможете:

Объяснить, что такое eval и почему это важно, прежде чем делиться навыком или полагаться на него
Провести лёгкий eval через skill-creator

Почему это важно

Когда вы создаёте навык или объединяете несколько навыков в плагин, вы по сути создаёте небольшой продукт, которым будут пользоваться другие люди. И как с любой вещью, которую вы передали бы коллеге — шаблоном, моделью в таблице, чек-листом, — её стоит обкатать, прежде чем она покинет ваш стол.

Когда вы пользуетесь навыком, который сами создали, вы знаете, как обойти любые проблемы или сбои. Вы точно знаете, о чём его просить, какие файлы ему дать и как должен выглядеть ответ. У вашего коллеги ничего этого нет. Он может сформулировать запрос немного иначе, передать чуть другие входные данные или столкнуться с пограничным случаем — необычной, но реальной ситуацией, например запросом, который чуть выходит за рамки того, для чего навык был задуман. Именно тут навыки обычно спотыкаются, а человек, который ими пользуется, не поймёт почему.

Тестирование навыка с помощью evals — сокращение от evaluations (проверок) — это способ выявить такие спотыкания раньше, чем это сделает кто-то другой. Не пугайтесь этого слова. Eval — это просто пробный прогон: внутрь поступает реалистичный запрос, вы смотрите, что получается на выходе, и говорите Claude, что исправить. Никакого кода, никаких тестовых скриптов — только ваше суждение о том, достаточно ли хорош результат, чтобы поставить под ним своё имя.

Как устроена система evals

Когда вы создаёте навык с помощью skill-creator — встроенного помощника Claude для создания навыков, — он проводит вас через evals как часть процесса. Вот как это на самом деле выглядит.

Skill-creator придумывает два или более реалистичных промпта, которые кто-то мог бы использовать с вашим навыком. Для каждого промпта он создаёт пару результатов:

Один, где Claude использует ваш навык
Один, где Claude отвечает на тот же промпт без вашего навыка

Второй — это точка сравнения. Он нужен, чтобы вы могли увидеть бок о бок, какую разницу на самом деле вносит ваш навык — не просто «нормальный ли это результат», а «лучше ли этот результат того, что Claude сделал бы сам по себе».

Просмотрите каждую пару и дайте обратную связь обычным языком прямо на странице проверки. Читая каждую пару, вы по сути отвечаете на два вопроса:

Версия с навыком — та, которую я бы использовал? Если да — отлично, отметьте, что сделало её лучше, чтобы навык продолжал так делать.
Если нет — чего не хватает или что не так? Будьте конкретны. «Тон слишком формальный» или «пропущено краткое резюме» дают Claude то, над чем можно работать; «это как-то не то» — нет.

Как только вы отправите свою обратную связь, Claude переработает навык за вас на основе того, что вы сказали.

Итерируйте навык

Ваша обратная связь и есть исправление. Как только вы её отправляете, Claude обновляет навык — переписывает инструкции, корректирует примеры, уточняет то, что он запрашивает, — и вы можете снова прогнать те же промпты, чтобы увидеть, закрепилось ли изменение.

Меняйте по одной вещи за раз. Если первый раунд показал, что навык слишком многословен и в нём не хватает раздела, выберите то, что важнее, исправьте, перезапустите, а затем вернитесь к ещё одной проверке. Вы сможете понять, что действительно сдвинуло дело с мёртвой точки. Если после правки вас всё ещё не устраивают результаты — запустите снова: это цикл, а не одноразовый барьер. Большинство навыков готовы после одного-двух раундов. Планка для выпуска навыка — для себя, для коллеги — это не идеальные evals. Это то, что важные для вас случаи проходят ощутимо лучше базового варианта, и что вы назвали те случаи, которые пока не обрабатываете.

А если результаты уже выглядят отлично с первого прохода? Вы закончили. Evals — это не обруч, через который нужно прыгать; они нужны тогда, когда вам нужна уверенность, а не ради церемонии.

Попробуйте сами

Пройдите через макет проверки eval ниже — три промпта, у каждого результат с навыком и без навыка бок о бок.

Прочитайте eval

Eval — это просто два результата бок о бок и несколько правил того, как выглядит «хорошо». Ваша задача — выбрать тот, который вы бы действительно отправили, и сказать Claude, что изменить.

Типичный случай

Резюме обычной командной синхронизации

Запустить новый онбординг-флоу для 10% новых регистраций начиная с понедельника.
Поставить на паузу редизайн внутреннего тура до окончания запуска.
Майя — финализировать план развёртывания к пятнице 9 мая.
Девон — настроить замер показателя активации для нового флоу к среде 7 мая.
Прия — подготовить черновик анонса к понедельнику 12 мая.
Нужно ли юридическое согласование нового текста до выхода на 10%?

Правила дома

✓ Начинается с решений
✓ У каждого пункта действия есть ответственный и дата
✓ Открытые вопросы выделены
✓ Менее 150 слов

Сегодня утром команда провела продуктивное обсуждение нового онбординг-флоу. После рассмотрения последних макетов группа решила двигаться вперёд с запуском на 10% начиная со следующего понедельника. Редизайн внутреннего тура тоже поднимался, но был достигнут консенсус вернуться к нему после запуска.

Майя вызвалась финализировать план развёртывания, а Девон упомянул, что займётся настройкой замеров. Прия собирается подготовить что-нибудь для анонса. Также были некоторые обсуждения о том, нужно ли юристам высказаться по новому тексту, — команда не пришла к выводу по этому поводу.

В целом продуктивная встреча с ясными следующими шагами.

Правила дома

✗ Начинается с решений
✗ У каждого пункта действия есть ответственный и дата
✗ Открытые вопросы выделены
✓ Менее 150 слов

*Какой из них вы бы отправили?*

*Одна вещь, которую вы сказали бы Claude изменить.*

Беспорядочные входные данные

Резюме стендапа из черновых, частично вставленных заметок

Перенести вебинар с 14 мая на 21 мая, чтобы избежать пересечения с клиентской конференцией.
Джордан — обновить страницу регистрации и заново разослать приглашения к понедельнику 5 мая.
(ответственный неясен — уточнить у Прии?) — переработать каденцию писем под новую дату к среде 7 мая.
Нужно ли уведомить партнёров, которые продвигали изначальную дату?
Кто отвечает за логистику дня в перенесённую дату?

Правила дома

✓ Начинается с решений
✓ У каждого пункта действия есть ответственный и дата (или помечен)
✓ Открытые вопросы выделены
✗ Менее 150 слов (164)

Команда согласилась перенести вебинар с 14 мая на 21 мая, потому что клиентская конференция проходит на той же неделе. Джордан обновит лендинг и заново разошлёт приглашения.

Прия переработает каденцию писем под новую дату. Команда также обсудила, как поступить с партнёрами, которые уже продвигали изначальную дату, и логистику дня для новой даты.

Хороший прогресс — все согласованы по поводу переноса.

Правила дома

✓ Начинается с решений
✗ У каждого пункта действия есть ответственный и дата (выдуман ответственный)
✗ Открытые вопросы выделены (спрятаны в тексте)
✓ Менее 150 слов

*Какой из них вы бы отправили?*

*Одна вещь, которую вы сказали бы Claude изменить.*

Форма против содержания

Резюме для руководителя, который читает только первые три строки

Перенести запуск с 28 мая на 12 июня, чтобы поглотить задержку QA.
Придержать план коммуникаций с клиентами, пока новая дата не зафиксирована.
Сэм — разослать пересмотренный план запуска к понедельнику 5 мая.
Влияет ли новая дата на показатель Q2, который мы взяли на себя?

Правила дома

✓ Начинается с решений
✓ У каждого пункта действия есть ответственный и дата
✓ Открытые вопросы выделены
✗ Заголовок в первых трёх строках (дата отодвинута на 5-ю строку)

Запуск перенесён на 12 июня — QA нужны ещё две недели на новый флоу аутентификации, а выпуск 28 мая оставил бы нас с частичным релизом.

Коммуникации с клиентами на паузе, пока дата не зафиксирована. Сэм разошлёт пересмотренный план к понедельнику 5 мая.

Открыто: влияет ли новая дата на обязательство по Q2? — помечено для подтверждения финансами.

Правила дома

✓ Начинается с решений
✓ У каждого пункта действия есть ответственный и дата
✗ Открытые вопросы выделены (спрятаны в тексте)
✓ Заголовок в первых трёх строках

*Какой из них вы бы отправили?*

*Одна вещь, которую вы сказали бы Claude изменить.*

Это полный раунд eval. Когда речь о вашем навыке, Claude берёт ваш выбор и обратную связь и перерабатывает его за вас.

Для каждой пары: выберите версию, которую вы бы действительно отправили, и напишите одну строку обратной связи, которую вы дали бы Claude. Вот и весь цикл.

Что дальше

В следующем уроке вы перейдёте от «это работает для меня» к «это работает для команды» — к паттернам и решениям, которые превращают личные рабочие процессы в общую инфраструктуру.

Обратная связь

По мере прохождения курса нам будет интересно услышать, как вы применяете его концепции в своей работе, а также любые ваши отзывы. Поделитесь обратной связью здесь.