Anthropic жасырын Claude Fable қауіпсіздік шектеріне кешірім сұрады

Anthropic компаниясы Claude Fable 5 жасанды интеллект моделіне жасырын қауіпсіздік шектеулерін қолданғаны үшін кешірім сұрады. Бұл шектеулер зерттеушілер мен бәсекелес жүйелерді дамытушыларға кедергі келтірген. Компания шектеулердің қашан іске қосылатынын ашық жариялап, жауаптар өзгертілген жағдайда пайдаланушыларға хабарланатынын айтты.
Claude Fable моделі мен қауіпсіздік шаралары
Claude Fable – Anthropic-тың Mythos класына жататын алғашқы кең қолжетімді жүйесі. Компания қауіптіліктерді болдырмау мақсатында жауаптарды шектеу шараларын енгізген. Солардың бірі – дистилляцияны, яғни үлкен модельдің жауаптарын пайдаланып кіші модельдерді оқыту әрекетін шектеу.
Қауіпсіздік шектеулерінің өзгеруі
Бұрын Anthropic дистилляция сұраныстарын анықтап, жауаптарды тікелей өзгертіп келген, бірақ пайдаланушылар бұл туралы хабарланбаған. Енді ол сұраныстар Claude Opus 4.8 моделіне бағытталып, пайдаланушыларға қауіпсіздік шараларының іске қосылғаны анық көрсетіледі.
Қоғамдық реакция және компанияның ұстанымы
Бұл өзгеріс Anthropic-тың жасырын шектеулеріне қатысты зерттеушілер мен бәсекелестердің сынына жауап ретінде жасалды. Компания көрермендердің қауіпсіздік шараларын білуі дұрыс екенін айтып, бұрынғы амалдарын дұрыс таңдамады деп мойындады.
Дереккөз: The Verge



