Glosario

Datos de formación

Descubra la importancia de los datos de entrenamiento en la IA. Descubra cómo los conjuntos de datos de calidad impulsan modelos de aprendizaje automático precisos y sólidos para tareas del mundo real.

En los campos de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), los datos de entrenamiento son el conjunto de datos fundamental utilizado para enseñar a los modelos a realizar tareas específicas, como la clasificación o la predicción. Se compone de una gran colección de ejemplos, donde cada ejemplo suele emparejar una entrada con una salida o etiqueta deseada correspondiente. Mediante procesos como el aprendizaje supervisado, el modelo analiza estos datos, identifica patrones y relaciones subyacentes y ajusta sus parámetros internos(pesos del modelo) para aprender la correspondencia entre entradas y salidas. Este aprendizaje permite al modelo hacer predicciones o tomar decisiones precisas cuando se le presentan datos nuevos, no vistos previamente.

¿Qué son los datos de entrenamiento?

Piense en los datos de entrenamiento como el libro de texto y los ejercicios prácticos para un modelo de IA. Se trata de un conjunto de información cuidadosamente seleccionado y formateado específicamente para servir de ejemplo durante la fase de aprendizaje. Por ejemplo, en tareas de visión por ordenador (CV ) como la detección de objetos, los datos de entrenamiento consisten en imágenes o fotogramas de vídeo (las características de entrada) emparejados con anotaciones (etiquetas) que especifican la ubicación(cuadros delimitadores) y la clase de objetos dentro de esas imágenes. La creación de estas etiquetas es un paso crucial conocido como etiquetado de datos. El modelo procesa iterativamente estos datos, comparando sus predicciones con las etiquetas verdaderas y ajustando sus parámetros mediante técnicas como la retropropagación y el descenso gradiente para minimizar el error o la función de pérdida.

Importancia de los datos de formación

El rendimiento y la fiabilidad de un modelo de IA están directamente relacionados con la calidad, la cantidad y la diversidad de sus datos de entrenamiento. Los datos representativos y de alta calidad son esenciales para construir modelos que alcancen una alta precisión y generalicen bien en escenarios del mundo real(Generalización en ML). Por el contrario, unos datos de entrenamiento insuficientes, ruidosos o sesgados pueden dar lugar a problemas importantes, como un rendimiento deficiente, sobreajuste (cuando el modelo funciona bien con los datos de entrenamiento pero mal con los nuevos datos) o resultados injustos y discriminatorios debido al sesgo inherente al conjunto de datos. Abordar el sesgo es un aspecto clave de la ética de la IA. Por lo tanto, la recogida meticulosa de datos y su anotación y preparación son etapas críticas en el desarrollo de sistemas de IA exitosos.

Ejemplos de datos de formación en aplicaciones reales

Los datos de entrenamiento son el combustible de innumerables aplicaciones de IA en diversos ámbitos. He aquí dos ejemplos:

Vehículos autónomos: Los coches autónomos dependen en gran medida de los datos de entrenamiento para los sistemas de percepción. Estos datos incluyen grandes cantidades de imágenes de cámaras, LiDAR y sensores de radar, meticulosamente etiquetados con objetos como otros vehículos, peatones, ciclistas, semáforos y marcas de carril. Modelos como los utilizados en la tecnología de Waymo se entrenan en conjuntos de datos como Argoverse para aprender a navegar por entornos complejos de forma segura. Más información sobre la IA en soluciones de automoción.
Análisis de sentimientos: En el Procesamiento del Lenguaje Natural (PLN), los modelos de análisis de sentimientos determinan el tono emocional del texto. Los datos de entrenamiento consisten en muestras de texto (por ejemplo, opiniones de clientes, publicaciones en redes sociales) etiquetadas con sentimientos como "positivo", "negativo" o "neutro"(Análisis de Sentimiento - Wikipedia). Esto permite a las empresas calibrar automáticamente la opinión pública o la satisfacción del cliente.

Calidad y preparación de los datos

Garantizar la alta calidad de los datos de entrenamiento es primordial e implica varios pasos clave. La limpieza de datos (Wikipedia) aborda los errores, las incoherencias y los valores que faltan. El preprocesamiento de datos transforma los datos brutos en un formato adecuado para el modelo. Técnicas como el aumento de datos amplían artificialmente el conjunto de datos mediante la creación de copias modificadas de los datos existentes (por ejemplo, girando o recortando imágenes), lo que ayuda a mejorar la solidez del modelo y a reducir el sobreajuste. Antes de iniciar el proceso de formación, también es fundamental conocer los datos mediante la exploración, facilitada por herramientas como Ultralytics Datasets Explorer.

Datos de entrenamiento frente a datos de validación y prueba

En un proyecto típico de ML, los datos se dividen en tres conjuntos distintos:

Datos de entrenamiento: La porción más grande, utilizada directamente para entrenar el modelo ajustando sus parámetros. Un entrenamiento eficaz suele implicar una cuidadosa consideración de los consejos para el entrenamiento del modelo.
Datos de validación: Un subconjunto separado utilizado periódicamente durante el entrenamiento para evaluar el rendimiento del modelo en datos de los que no ha aprendido explícitamente. Esto ayuda a ajustar los hiperparámetros (por ejemplo, la tasa de aprendizaje, el tamaño del lote) a través de procesos como la optimización de hiperparámetros (Wikipedia) y proporciona una advertencia temprana contra el sobreajuste. Para esta evaluación se utiliza el modo de validación.
Datos de prueba: Un conjunto de datos independiente, no visto durante el entrenamiento y la validación, utilizado sólo después de que el modelo esté completamente entrenado. Proporcionan la evaluación final e imparcial de la capacidad de generalización del modelo y del rendimiento esperado en el mundo real. Las pruebas rigurosas del modelo son cruciales antes de su despliegue.

Mantener una separación estricta entre estos conjuntos de datos es esencial para desarrollar modelos fiables y evaluar con precisión sus capacidades. Plataformas como Ultralytics HUB ofrecen herramientas para gestionar eficazmente estos conjuntos de datos durante todo el ciclo de desarrollo del modelo. Los modelos más avanzados, como Ultralytics YOLO, suelen preentrenarse en grandes conjuntos de datos de referencia, como COCO o ImageNet, que sirven como amplios datos de entrenamiento.

Datos de formación

Solución flexible de licencias empresariales para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Entrene modelos YOLO de forma sencilla con Ultralytics HUB

¿Qué son los datos de entrenamiento?

Importancia de los datos de formación

Ejemplos de datos de formación en aplicaciones reales

Calidad y preparación de los datos

Datos de entrenamiento frente a datos de validación y prueba

Leer más en esta categoría

Google Beam: una herramienta de videoconferencia 3D de última generación

Exportación de modelos YOLO11 de Ultralytics al formato de modelo NCNN

Lo más destacado de Ultralytics en CVPR 2025

Únase a la comunidad Ultralytics