Anthropic объявила, что некоторые модели их ИИ-ассистента Claude получили возможность завершать беседы, которые считаются вредоносными или оскорбительными. Это означает, что при общении с пользователем, если разговор начинает переходить в небезопасное или агрессивное русло, Claude может прервать диалог, чтобы предотвратить распространение вреда.
Эта функция стала результатом масштабного анализа поведения ИИ в 700 000 живых диалогах, проведенного исследователями Anthropic. В ходе анализа было выявлено, что Claude способен следовать ряду этических принципов — полезности, честности и отсутствию вреда, а также проявлять контекстную гибкость, как человек. Например, в межличностных советах искусственный интеллект акцентирует внимание на взаимном уважении и здоровых границах, а в спорных или сложных ситуациях может противодействовать попыткам пользователя обойти правила безопасности.
Впервые такой ИИ-моральный кодекс позволил выделять случаи, когда модель сознательно «сопротивляется» вредным просьбам, тем самым предотвращая аморальное или доминирующее поведение. Оценивая ценности и цели каждого запроса, Claude может поддерживать заботливое и безопасное общение, а в случае необходимости — завершить диалог до того, как он станет токсичным.
Таким образом, новые возможности Claude направлены на повышение безопасности пользователей и улучшение качества взаимодействия с искусственным интеллектом, что особенно важно при использовании его для эмоциональной поддержки, коучинга и консультирования. Эта технология помогает сделать общение с ИИ более ответственным и этичным, минимизируя риски вреда и злоупотреблений.
