Este proyecto busca implementar un clasificador Naive Bayes para el conjunto de datos de dígitos manuscritos MNIST. Se pretende entender y aplicar los conceptos de probabilidad condicional y independencia condicional para clasificar imágenes de dígitos manuscritos.
El conjunto de datos MNIST contiene imágenes de dígitos manuscritos (del 0 al 9) en blanco y negro, normalizados y centrados. Cada imagen tiene un tamaño de 28x28 píxeles.
Carga de Datos: Se cargan las imágenes y las etiquetas del dataset MNIST.
Las imágenes se binarizan utilizando diferentes umbrales, convirtiendo los píxeles en valores binarios (0 o 1), representando el color blanco o negro respectivamente.
Se implementa el clasificador Naive Bayes, que se basa en el cálculo de probabilidades condicionales y la asunción de independencia condicional entre los píxeles dada la clase del dígito. Se calcula la probabilidad de cada píxel dado cada dígito y se utilizan estas probabilidades para clasificar nuevas imágenes.
Se realiza una validación cruzada para seleccionar el mejor umbral de binarización. El rendimiento del modelo se evalúa mediante el cálculo del accuracy en conjuntos de validación.
Se genera un nuevo dígito sintético utilizando las probabilidades condicionales aprendidas por el modelo. Este nuevo dígito representa una visualización de un dígito "promedio" basado en las probabilidades condicionales de cada píxel.
Se logró desarrollar un modelo que puede clasificar dígitos manuscritos con una precisión satisfactoria. Además, el modelo fue capaz de sintetizar nuevos dígitos que representan visualizaciones "promedio" de cada clase. A continuación, se presentan los resultados de las métricas de interés (Accuracy, Recall y F1-score), así como la matriz de confusión evaluadas sobre los datos de test.
- Matriz de confusión:
- Métricas de interés:
Los dígitos sintetizados reflejan de manera adecuada las características generales de cada clase de dígito. Aunque no son representaciones perfectas y pueden carecer de algunos detalles presentes en los dígitos manuscritos reales, sirven como una buena aproximación y demostración de la capacidad del modelo Naive Bayes para entender y replicar patrones subyacentes en los datos.
- Número 6 sintetizado:


