Una "configuración de transformador" describe el conjunto de hiperparámetros arquitectónicos y configuraciones de entrenamiento que definen una instancia de modelo de transformador. Estas incluyen opciones estructurales (número de capas de codificador/decodificador, dimensión del modelo, número de cabezas de atención, tamaño oculto de retroalimentación), regularización (tasas de abandono, ubicación de normas de capa) y configuraciones de entrenamiento/tiempo de ejecución (tamaño de lote, longitud de secuencia, optimizador y programa de tasa de aprendizaje). Esta sección define brevemente las piezas que verá en las plantillas siguientes y por qué son importantes para el rendimiento, la computación y la latencia.
Estos son los parámetros que determinan principalmente la capacidad del modelo y el uso de memoria:
Para la inferencia en el dispositivo, priorice d_model más pequeño y menos capas, y reduzca la longitud de la secuencia si es posible. Utilice menos cabezas (p. ej., 2 a 4) para simplificar la proyección de la atención y prefiera una proporción de FFN de 1,5 a 2 ×. Se recomienda la formación consciente de la cuantificación y la destilación de conocimientos para mantener la precisión.
Las configuraciones "básicas" equilibradas funcionan bien para muchas tareas de PNL y transformadores de visión. Intercambian computación y memoria para una generalización más sólida y son apropiados para servir del lado del servidor o realizar ajustes en conjuntos de datos de tamaño moderado.
Las configuraciones grandes escalan d_model, L y, a menudo, utilizan FFN más anchos y más cabezales. Requieren capacitación distribuida y opciones cuidadosas de optimización/programación para converger de manera confiable.
A continuación se muestran plantillas de configuración prácticas que se pueden copiar y pegar (consejos de capacitación estructural). Utilícelos como puntos de partida y adapte el tamaño del lote, la tasa de aprendizaje y la longitud de la secuencia a su hardware y conjunto de datos.
| Plantilla | Estructura (L/d_modelo/h/d_ff) | Consejos de entrenamiento |
| Borde pequeño | 6/320/4/1024 | AdamW, lr 1e-4 con calentamiento lineal (pasos de 1k), lote 64, cuantificación posterior al entrenamiento. |
| Base | 12/768/12/3072 | AdamW, lr 5e-5 con programa de cosenos, lote 32-128 (acumule si es necesario). |
| Grande | 24–48 / 1024–2048 / 16–32 / 4096–8192 | AdamW con LAMB o Adam distribuido; lr 1e-4–3e-4 con calentamiento prolongado, lote grande mediante datos paralelos o fragmentación. |
Si debe ajustar un pequeño conjunto de perillas, primero priorice el tamaño del modelo (d_model y L), luego la tasa de aprendizaje y el tamaño del lote. Ajuste el número de cabezales solo si d_model/h se vuelve demasiado pequeño (mantenga el tamaño del cabezal ≥ 32 para gradientes estables en muchas implementaciones).
Utilice variantes de abandono (0.1) y de norma de capa (post-LN o Pre-LN según la arquitectura). Para modelos profundos, Pre-LN suele proporcionar un entrenamiento más estable. El recorte de gradiente (1.0) evita picos; El entrenamiento de precisión mixta (AMP) reduce la memoria y acelera el entrenamiento, pero controla la inestabilidad.
Utilice las plantillas anteriores como puntos de partida y ajústelas iterativamente en función de las métricas de validación y las restricciones de hardware. Realice un seguimiento tanto del rendimiento (tokens/seg) como de la latencia por token durante la evaluación. En caso de duda, comience desde la plantilla "Base" y ejecute ablaciones dirigidas: reduzca o aumente L y d_model de forma independiente para observar ganancias marginales.