Presentamos EVAL Engine (Evaluation Validation Architecture), un marco descentralizado para evaluar agentes de IA con un enfoque en agentes nativos de cripto a través de evaluaciones verificables en tiempo real y capacidades de aprendizaje continuo.
Nuestro sistema utiliza la arquitectura de blockchain relacional sin gas de Chromia para permitir una evaluación transparente, inmutable y rentable del rendimiento de los agentes de IA. El sistema incorpora múltiples métricas de LLM-as-a-judge[1] y de compromiso social para el aprendizaje por refuerzo continuo a través de un bucle de retroalimentación y un sistema de recompensas.
Demostramos que EVAL Engine puede lograr evaluaciones eficientes y seguras mientras se adapta a estándares de rendimiento en evolución a través de bucles de retroalimentación impulsados por el compromiso.
También presentamos una hoja de ruta integral para el desarrollo de EVAL Engine, que incluye desarrollo de API, preparación de datos, desarrollo de modelos e implementación de modelos.