Glosario

Confianza

Defina las puntuaciones de confianza de la IA. Descubra cómo los modelos miden la certeza de las predicciones, establecen umbrales de fiabilidad y distinguen la confianza de la precisión.

La confianza, en el contexto de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), representa una puntuación asignada por un modelo a su predicción, indicando el grado de certeza del modelo sobre ese resultado específico. En tareas como la detección de objetos o la clasificación de imágenes, a cada objeto detectado o etiqueta de clase asignada se le asigna una puntuación de confianza, que suele oscilar entre 0 y 1 (o entre 0% y 100%). Esta puntuación ayuda a los usuarios a calibrar la fiabilidad de las predicciones individuales realizadas por modelos como Ultralytics YOLO. Una puntuación más alta sugiere que el modelo está más seguro de su predicción basándose en los patrones aprendidos durante el entrenamiento. Comprender la confianza es crucial para interpretar los resultados del modelo y tomar decisiones informadas basadas en predicciones de IA, especialmente en aplicaciones críticas para la seguridad como la IA en soluciones de automoción.

Cómo se determina la confianza

Las puntuaciones de confianza suelen derivarse de la capa de salida de una red neuronal (NN). Para las tareas de clasificación, esto suele implicar la aplicación de una función de activación como Softmax o Sigmoid a las salidas brutas (logits) para producir valores similares a la probabilidad para cada clase. En modelos de detección de objetos como YOLO, la puntuación de confianza puede combinar la probabilidad de que un objeto esté presente en un cuadro delimitador propuesto (a menudo denominada "puntuación de objetualidad") y la probabilidad de que ese objeto pertenezca a una clase específica, condicionada a que un objeto esté presente. Es un resultado clave utilizado durante el proceso de inferencia para evaluar la validez de las detecciones. Esta puntuación se calcula a partir de las ponderaciones del modelo aprendidas de conjuntos de datos como COCO.

El umbral de confianza

En la práctica, no todas las predicciones de un modelo son igual de útiles o fiables. Las predicciones con puntuaciones de confianza muy bajas suelen representar ruido de fondo o clasificaciones inciertas. Para filtrarlas, se suele aplicar un "umbral de confianza". Se trata de un valor definido por el usuario (por ejemplo, 0,5 o 50%); sólo las predicciones con una puntuación de confianza superior a este umbral se consideran resultados válidos. Establecer un umbral adecuado es vital y a menudo depende de la aplicación específica:

  • Escenarios de alta recuperación: En aplicaciones como el análisis de imágenes médicas para el cribado, puede utilizarse inicialmente un umbral más bajo para minimizar la posibilidad de pasar por alto posibles hallazgos (alta recuperación), aunque ello implique más falsos positivos que requieran una revisión humana. La IA en la atención sanitaria implica a menudo un cuidadoso ajuste del umbral.
  • Escenarios de alta precisión: En aplicaciones como la conducción autónoma o el control de calidad de la IA en la fabricación, se prefiere un umbral más alto para garantizar que las acciones se tomen únicamente en función de predicciones muy certeras (alta precisión), lo que reduce el riesgo de errores. La investigación sobre la seguridad de la IA hace hincapié en una toma de decisiones sólida.

El umbral de confianza suele funcionar junto con técnicas como la supresión no máxima (NMS) para refinar el conjunto final de detecciones eliminando los cuadros delimitadores superpuestos del mismo objeto. Puede configurar fácilmente este umbral cuando utilice modelos de Ultralytics a través de la interfaz de línea de comandos (CLI) o la API de Python. Encontrar el umbral óptimo puede implicar el ajuste de hiperparámetros.

Aplicaciones reales

Las puntuaciones de confianza son fundamentales para desplegar modelos de IA de forma responsable y eficaz:

  1. Apoyo al diagnóstico médico: En los sistemas que analizan exploraciones médicas (como radiografías o resonancias magnéticas) en busca de posibles anomalías(como la detección de tumores), la puntuación de confianza ayuda a priorizar los casos. Una predicción con un nivel de confianza bajo puede indicar un hallazgo ambiguo que requiera un examen más detallado por parte de un radiólogo, mientras que las predicciones con un nivel de confianza alto pueden agilizar el proceso de revisión. En la investigación sobre inteligencia artificial en radiología se habla a menudo de los niveles de confianza.
  2. Sistemas autónomos: Para los coches autónomos o la robótica, las puntuaciones de confianza son fundamentales para la seguridad. La detección de un peatón o de otro vehículo(más información sobre el enfoque de Waymo) debe alcanzar un umbral de confianza alto antes de que el sistema inicie una acción como frenar o desviarse. Las detecciones de baja confianza pueden ignorarse o activar alertas menos críticas. Esto garantiza que el sistema actúe con decisión solo cuando esté seguro.

Confianza frente a otras métricas

Es importante no confundir la puntuación de confianza de una predicción individual con las métricas de evaluación global del modelo. Aunque están relacionadas, miden aspectos diferentes del rendimiento:

  • Precisión: Mide el porcentaje global de predicciones correctas en todo el conjunto de datos. Proporciona una idea general del rendimiento del modelo, pero no refleja la certeza de las predicciones individuales. Un modelo puede tener una gran precisión pero realizar algunas predicciones con poca confianza.
  • Precisión: Indica la proporción de predicciones positivas que fueron realmente correctas (Verdaderos Positivos / (Verdaderos Positivos + Falsos Positivos)). Una precisión elevada significa menos falsas alarmas. La confianza refleja la creencia del modelo en su predicción, que puede coincidir o no con la exactitud.
  • Recuperar (Sensibilidad): Mide la proporción de casos positivos reales que el modelo identificó correctamente (Verdaderos Positivos / (Verdaderos Positivos + Falsos Negativos)). Un recall alto significa menos detecciones fallidas. La confianza no está directamente relacionada con el número de positivos reales encontrados.
  • Puntuación F1: La media armónica de Precision y Recall, proporcionando una única métrica que equilibra ambas. La confianza sigue siendo una puntuación a nivel de predicción.
  • Precisión media (mAP): Una métrica común en la detección de objetos que resume la curva de precisión-recuerdo a través de diferentes umbrales de confianza y clases. Mientras que el cálculo de mAP implica umbrales de confianza, la puntuación de confianza se aplica a cada detección individual.
  • Calibración: Se refiere al grado de concordancia entre las puntuaciones de confianza y la probabilidad real de acierto. Las predicciones de un modelo bien calibrado con un 80% de confianza deberían ser correctas aproximadamente el 80% de las veces. Las puntuaciones de confianza de los modelos no siempre están bien calibradas(véase la investigación sobre calibración).

En resumen, la confianza es un resultado valioso para evaluar la certeza de las predicciones individuales de la IA, lo que permite un mejor filtrado, priorización y toma de decisiones en aplicaciones del mundo real. Complementa, pero es distinta, de las métricas que evalúan el rendimiento general de un modelo, como las que se rastrean en Ultralytics HUB.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles