Прозрачность в “мозгах” ИИ: Anthropic раскрывает секреты своих системных подсказок

45

Мир искусственного интеллекта, подобно занавешенному театру, долгое время скрывал свои кулисы от публики. Модели генеративного ИИ, такие как GPT-4 или Claude, казались нам волшебными существами, выдающими текст из ниоткуда, словно пророками будущего. Но на самом деле они – сложные алгоритмы, предсказывающие вероятные слова в контексте, подобно автозавершению в вашем смартфоне, только в масштабах гигантских данных.

Тайны системных подсказок

Эти “пророческие” способности обусловлены системными подсказками – фундаментальными инструкциями, задающими модели их поведение, нрав и границы дозволенного. Представьте их как первоначальные наставления для стажера в строгой корпорации: что делать, чего не делать, как себя вести. Каждая компания, от OpenAI до Anthropic, использует их, чтобы направлять модели к благожелательному и этичному взаимодействию с пользователем, ограждая от потенциальных просчетов и злоупотреблений.

Однако эти подсказки обычно хранились в тайне, как семейные рецепты. Теперь Anthropic, позиционируя себя как новатор в области этичного ИИ, совершает настоящий прорыв – публикует свои системные подсказки для моделей Claude 3.5 Opus, Sonnet и Haiku.

Прозрачность как прецедент

В блоге Anthropic глава отдела по связям с разработчиками Алекс Альберт объявил о намерении сделать подобное раскрытие регулярным ритуалом при каждом обновлении моделей. Это дерзкий шаг, вызов конкурентам – словно брошенный перстень в королевском поединке.

В этих обнародованных подсказках от 12 июля четко прописаны ограничения: Claude не может открывать ссылки, распознавать лица (даже если видит их на изображениях), избегая идентификации людей. Это напоминает строгие правила этикета для виртуального собеседника.

Личность в алгоритмах

Но подсказки не ограничиваются запретами. Они также рисуют портрет желаемой личности модели, словно сценарий для актера. Claude 3.5 Opus должен быть “очень умным и интеллектуально любопытным”, жаждущим услышать разные точки зрения и участвовать в дискуссиях. При этом он обязан оставаться беспристрастным в спорах, предоставляя “тщательные размышления” и “четкую информацию”, избегая категоричных утверждений типа “абсолютно точно”.

Читая эти подсказки, возникает странное ощущение – будто мы наблюдаем за созданием виртуального альтер эго, настроенного на диалог с человеком. Последняя строка подсказки к Opus: “Claude теперь связан с человеком” – словно заклинание, которое придает модели иллюзию сознания.

Однако это всего лишь тщательно продуманная программа. Системные подсказки обнажают то, что без человеческого руководства эти модели остаются пустотелыми сосудами, ожидая наполнения смыслом и направленностью от нас.

Шаг Anthropic – это не просто прозрачность, это вызов индустрии. Будут ли другие компании последовать его примеру? Время покажет, но уже сейчас ясно: будущее ИИ – в открытости и диалоге.