Descubra la importancia de los datos de entrenamiento en la IA. Descubra cómo los conjuntos de datos de calidad impulsan modelos de aprendizaje automático precisos y sólidos para tareas del mundo real.
En los campos de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), los datos de entrenamiento son el conjunto de datos fundamental utilizado para enseñar a los modelos a realizar tareas específicas, como la clasificación o la predicción. Se compone de una gran colección de ejemplos, donde cada ejemplo suele emparejar una entrada con una salida o etiqueta deseada correspondiente. Mediante procesos como el aprendizaje supervisado, el modelo analiza estos datos, identifica patrones y relaciones subyacentes y ajusta sus parámetros internos(pesos del modelo) para aprender la correspondencia entre entradas y salidas. Este aprendizaje permite al modelo hacer predicciones o tomar decisiones precisas cuando se le presentan datos nuevos, no vistos previamente.
Piense en los datos de entrenamiento como el libro de texto y los ejercicios prácticos para un modelo de IA. Se trata de un conjunto de información cuidadosamente seleccionado y formateado específicamente para servir de ejemplo durante la fase de aprendizaje. Por ejemplo, en tareas de visión por ordenador (CV ) como la detección de objetos, los datos de entrenamiento consisten en imágenes o fotogramas de vídeo (las características de entrada) emparejados con anotaciones (etiquetas) que especifican la ubicación(cuadros delimitadores) y la clase de objetos dentro de esas imágenes. La creación de estas etiquetas es un paso crucial conocido como etiquetado de datos. El modelo procesa iterativamente estos datos, comparando sus predicciones con las etiquetas verdaderas y ajustando sus parámetros mediante técnicas como la retropropagación y el descenso gradiente para minimizar el error o la función de pérdida.
El rendimiento y la fiabilidad de un modelo de IA están directamente relacionados con la calidad, la cantidad y la diversidad de sus datos de entrenamiento. Los datos representativos y de alta calidad son esenciales para construir modelos que alcancen una alta precisión y generalicen bien en escenarios del mundo real(Generalización en ML). Por el contrario, unos datos de entrenamiento insuficientes, ruidosos o sesgados pueden dar lugar a problemas importantes, como un rendimiento deficiente, sobreajuste (cuando el modelo funciona bien con los datos de entrenamiento pero mal con los nuevos datos) o resultados injustos y discriminatorios debido al sesgo inherente al conjunto de datos. Abordar el sesgo es un aspecto clave de la ética de la IA. Por lo tanto, la recogida meticulosa de datos y su anotación y preparación son etapas críticas en el desarrollo de sistemas de IA exitosos.
Los datos de entrenamiento son el combustible de innumerables aplicaciones de IA en diversos ámbitos. He aquí dos ejemplos:
Garantizar la alta calidad de los datos de entrenamiento es primordial e implica varios pasos clave. La limpieza de datos (Wikipedia) aborda los errores, las incoherencias y los valores que faltan. El preprocesamiento de datos transforma los datos brutos en un formato adecuado para el modelo. Técnicas como el aumento de datos amplían artificialmente el conjunto de datos mediante la creación de copias modificadas de los datos existentes (por ejemplo, girando o recortando imágenes), lo que ayuda a mejorar la solidez del modelo y a reducir el sobreajuste. Antes de iniciar el proceso de formación, también es fundamental conocer los datos mediante la exploración, facilitada por herramientas como Ultralytics Datasets Explorer.
En un proyecto típico de ML, los datos se dividen en tres conjuntos distintos:
Mantener una separación estricta entre estos conjuntos de datos es esencial para desarrollar modelos fiables y evaluar con precisión sus capacidades. Plataformas como Ultralytics HUB ofrecen herramientas para gestionar eficazmente estos conjuntos de datos durante todo el ciclo de desarrollo del modelo. Los modelos más avanzados, como Ultralytics YOLO, suelen preentrenarse en grandes conjuntos de datos de referencia, como COCO o ImageNet, que sirven como amplios datos de entrenamiento.