Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Programa del Curso
Introducción a Reinforcement Learning desde el Feedback Humano (RLHF)
- Qué es RLHF y por qué es importante
- Comparación con métodos de fine-tuning supervisados
- Aplicaciones de RLHF en sistemas modernos de IA
Modelado de Recompensas con Feedback Humano
- Colección y estructuración del feedback humano
- Construcción y entrenamiento de modelos de recompensa
- Evaluación de la efectividad de los modelos de recompensa
Entrenamiento con Optimización de Política Próxima (PPO)
- Visión general de los algoritmos PPO para RLHF
- Implementación de PPO con modelos de recompensa
- Fine-tuning iterativo y seguro de los modelos
Aplicaciones Prácticas de Modelos de Lenguaje
- Preparación de conjuntos de datos para flujos de trabajo RLHF
- Taller de fine-tuning de un pequeño LLM usando RLHF
- Dificultades y estrategias de mitigación
Escalar RLHF a Sistemas de Producción
- Consideraciones de infraestructura y computo
- Aseguramiento de calidad y bucles de feedback continuos
- Prácticas recomendadas para despliegue y mantenimiento
Consideraciones Éticas y Mitigación del Sesgo
- Abordar riesgos éticos en el feedback humano
- Estrategias de detección y corrección de sesgos
- Asegurar alineación y salidas seguras
Casos de Estudio y Ejemplos del Mundo Real
- Caso de estudio: Fine-tuning ChatGPT con RLHF
- Otras implementaciones exitosas de RLHF
- Lecciones aprendidas e insights de la industria
Resumen y Próximos Pasos
Requerimientos
- Una comprensión de los fundamentos del aprendizaje supervisado y el aprendizaje por refuerzo
- Experiencia en el ajuste de modelos y arquitecturas de redes neuronales
- Familiaridad con Python programación y marcos de aprendizaje profundo (por ejemplo, TensorFlow, PyTorch)
Publlico objetivo
- Ingenieros Machine Learning
- Investigadores de IA
14 Horas