Aurelius는 언어 모델을 체계적으로 조사하여 안전 실패 및 경계 사례 행동을 발견함으로써 고품질 AI 정렬 데이터를 생성하는 분산형 플랫폼입니다. 오픈 소스 중재 도구, LLM 기반 판정기, 맞춤형 정렬 메트릭을 사용하여 여러 윤리 및 안전 차원에서 응답을 평가합니다. 목표는 정렬 연구를 위한 투명하고 검증 가능한 기반을 만들고, 다양한 관점이 점점 더 강력해지는 AI 시스템의 안전성을 정의, 측정 및 개선하는 데 도움을 주는 장기적인 생태계를 구축하는 것입니다.