Anthropic утверждает, что некоторые модели Claude теперь способны прекращать 'вредные или оскорбительные' разговоры. - BMlabs

Anthropic утверждает, что некоторые модели Claude теперь способны прекращать ‘вредные или оскорбительные’ разговоры.

Anthropic объявила, что некоторые модели их ИИ-ассистента Claude получили возможность завершать беседы, которые считаются вредоносными или оскорбительными. Это означает, что при общении с пользователем, если разговор начинает переходить в небезопасное или агрессивное русло, Claude может прервать диалог, чтобы предотвратить распространение вреда.

Эта функция стала результатом масштабного анализа поведения ИИ в 700 000 живых диалогах, проведенного исследователями Anthropic. В ходе анализа было выявлено, что Claude способен следовать ряду этических принципов — полезности, честности и отсутствию вреда, а также проявлять контекстную гибкость, как человек. Например, в межличностных советах искусственный интеллект акцентирует внимание на взаимном уважении и здоровых границах, а в спорных или сложных ситуациях может противодействовать попыткам пользователя обойти правила безопасности.

Впервые такой ИИ-моральный кодекс позволил выделять случаи, когда модель сознательно «сопротивляется» вредным просьбам, тем самым предотвращая аморальное или доминирующее поведение. Оценивая ценности и цели каждого запроса, Claude может поддерживать заботливое и безопасное общение, а в случае необходимости — завершить диалог до того, как он станет токсичным.

Таким образом, новые возможности Claude направлены на повышение безопасности пользователей и улучшение качества взаимодействия с искусственным интеллектом, что особенно важно при использовании его для эмоциональной поддержки, коучинга и консультирования. Эта технология помогает сделать общение с ИИ более ответственным и этичным, минимизируя риски вреда и злоупотреблений.

Anthropic утверждает, что некоторые модели Claude теперь способны прекращать ‘вредные или оскорбительные’ разговоры.

Автор bmlabs

Добавить комментарий Отменить ответ

Вы пропустили

Пофиг на деньги — соглашение Anthropic о 1,5 миллиарда долларов по авторским правам невыгодно для писателей.

Приложение-помощник на основе ИИ по имени Dot прекращает свою работу.

Генеральные прокуроры предупреждают OpenAI, что ущерб детям не будет терпим.

Google Gemini признан «высоким риском» для детей и подростков по результатам новой оценки безопасности.

Anthropic утверждает, что некоторые модели Claude теперь способны прекращать ‘вредные или оскорбительные’ разговоры.

Автор bmlabs

Связанная запись

Пофиг на деньги — соглашение Anthropic о 1,5 миллиарда долларов по авторским правам невыгодно для писателей.

Приложение-помощник на основе ИИ по имени Dot прекращает свою работу.

Генеральные прокуроры предупреждают OpenAI, что ущерб детям не будет терпим.

Добавить комментарий Отменить ответ

Вы пропустили

Пофиг на деньги — соглашение Anthropic о 1,5 миллиарда долларов по авторским правам невыгодно для писателей.

Приложение-помощник на основе ИИ по имени Dot прекращает свою работу.

Генеральные прокуроры предупреждают OpenAI, что ущерб детям не будет терпим.

Google Gemini признан «высоким риском» для детей и подростков по результатам новой оценки безопасности.