‘Constitutional Classifiers’ Technique Mitigates GenAI Jailbreaks

By Santiago LeonIn BlogPosted February 3, 20250 Comment(s)

Anthropic says its Constitutional Classifiers approach offers a practical way to make it harder for bad actors to try and coerce an AI model off its guardrails.

Leave a Reply Cancel reply