rlhf

  1. NewsMaker

    Новости Как заставить ИИ перестать врать и саботировать? Anthropic знает: разрешить ему это

    Исследование Anthropic показало, что мягкое разрешение обходов снижает риск несоответствия моделей. Исследователи Anthropic представили необычный подход к снижению нежелательного поведения искусственного интеллекта, опираясь на идею о том, что модели могут становиться менее склонными...
  2. NewsMaker

    Новости Инъекция правды: как разговорить GPT-4 и заставить генерировать опасный контент

    Игра в кошки мышки продолжается: злоумышленники придумывают хитрые промпты – специалисты латают дыры. Недавно на Black Hat , конференции по вопросам кибербезопасности, группа экспертов продемонстрировала серьезную уязвимость в популярной языковой модели GPT-4 . Исследователи выяснили...