Skip to content

Allan19k/Data_analysis_portfolio

Repository files navigation

📊 Data Analysis Portfolio

Este repositorio —en constante desarrollo— reúne mis proyectos, ejercicios, prácticas profesionales y certificaciones en el área de análisis de datos. Actualmente curso el noveno semestre de la carrera de Ingeniería en Ciencias de la Computación, mientras realizo mis prácticas profesionales en Nidix Networks, lo que me permite aplicar mis conocimientos en un entorno real y complementar mi formación académica.

El portafolio integra proyectos en Python que he desarrollado a lo largo de la carrera para distintas materias optativas como: Machine Learning y Data Science. Así como, otras herramientas propias del análisis de datos como Excel, SQL, PowerBi, Minitab, entre otras. Esto, además de mostrar mis habilidades técnicas, también refleja mi compromiso con el aprendizaje continuo, la mejora constante y la adopción de buenas prácticas de ingeniería, como documentación, control de versiones y uso de pipelines.

Este repositorio seguirá creciendo de forma progresiva, incorporando las nuevas herramientas, metodologías y tecnologías que voy aprendiendo, especialmente ahora que estoy expuesto a procesos reales dentro de la industria. Considero fundamental mantenerse actualizado en un entorno tecnológico que evoluciona rápidamente; por ello, además de reforzar lo aprendido, busco integrar enfoques modernos que aporten valor en cualquier proyecto o empresa donde participe.


1. 🏅 Certifications

Colección de certificados de cursos y programas formativos que he completado, o estoy por completar (checklist en mi repositorio principal: Allan19k), incluidos:

  • Kaggle Learn (Python, Pandas, Data Cleaning, Data Visualization, SQL, Machine Learning, Geospatial Analysis etc.)
  • Santander Open Academy (Excel, Fundamentos de ChatGPT, Power BI)

2. 📈 Excel Projects

Ejercicios de Excel aplicados a análisis y dashboarding (en proceso), entre ellos:

  • Ejercicios básicos del curso de Excel de Santander Open Academy
  • Dashboards interactivos y formatos condicionales
  • Ejercicios de simulación y reportes automatizados
  • Ejercicios de tipo intermedio y avanzado usando diversas funciones y herramientas propias de Excel

3. 🤖 Machine Learning Projects

Ejercicios y Proyectos desarrollados en 7º semestre durante la Materia Optativa de Machine Learning con la Dra. Graciela María de Jesús Ramírez Alonso, además de diversos cursos complementarios de Kaggle Learn:

  • Repaso de Álgebra para redes neuronales (Ejercicios de Álgebra usando la libreria Numpy, enfocados a reforzar dichos conocimientos esenciales para ML)
  • Búsqueda de hiperparámetros (GridSearchCV con MLPClassifier sobre load_wine)
  • Predicción de series temporales (RNN vs. LSTM para EUR/USD)
  • Transfer Learning con ResNet50 para clasificación de imágenes
  • Smart Dairy Farming: Milk Yield Classification App (Proyecto Final de la materia) Consiste en una aplicación móvil que utiliza un modelo de clasificación entrenado con visión por computadora para predecir niveles de producción de leche (alta, media o baja) a partir de imágenes. Fue publicado como artículo científico y demuestra la aplicación práctica del aprendizaje automático en el sector agropecuario
  • Cursos complementarios:
  • Intro to Machine Learning

4. 📉 Minitab Projects

Ejercicios aplicados de Estadística realizados en 5º semestre a cargo de la Dra. Patricia Guadalupe Orpinel Ureña:

  • Pruebas Chi‑cuadrado (bondad de ajuste e independencia)
  • ANOVA (un solo factor y dos factores)
  • Regresión Lineal (simple y múltiple)
  • Conclusiones formales, gráficos y validación de supuestos

5. 🐍 Python Projects

Proyectos y ejercicios en Python usando diversas librerías para el análisis de datos:

  • Fundamentos de Python (sintaxis, funciones, listas, condicionales…)
  • Análisis Estadistico usando Statistics
  • Generación de dummy data con Faker para exportación a CSV y xlsx
  • Cursos de Kaggle Learn (Pandas, Data Cleaning y Data Visualization)
  • Scraping y automatización (automatizar la obtención de datos desde distintas fuentes (APIs o web scraping) aplicando hilos para mejorar el rendimiento)
  • Adaptaciones de notebooks de Kaggle

6. 💾 SQL Projects

Ejercicios del curso de Fundamentos de Bases de Datos desarrollados con el Profesor José Saúl de Lira Miramontes en 6º semestre y más:

  • Instalación y configuración de Oracle 21c XE y esquema HR
  • Consultas básicas: SELECT, WHERE, JOIN, GROUP BY, subconsultas, DML, views
  • Ejercicios organizados por tema con capturas y explicaciones

7. 🦾 Intro to AI Ethics

Curso de Kaggle Learn enfocado en los principios éticos del uso de la inteligencia artificial. A través de ejemplos y casos reales, se exploraron conceptos clave como sesgos algorítmicos, privacidad, equidad y responsabilidad en sistemas automatizados.

Incluí este contenido en mi portafolio porque considero fundamental comprender el impacto social de las herramientas que desarrollamos. En particular, me interesa aplicar estos principios dentro del análisis de datos y proyectos de inteligencia artificial de forma ética y transparente.


8. 📊 Power BI Projects

Proyectos y ejercicios realizados con Microsoft Power BI, aplicando importación de datos, creación de informes interactivos, filtros, formatos condicionales y transformaciones con Power Query, como parte del curso Fundamentos de Power BI – Santander Open Academy, así como otros ejercicios que haga más adelante, para reforzar los conocimientos que adquiri del curso en cuestión o proyectos más elaborados.


9. 🥼 Data Science

Materia optativa de 8º semestre impartida por la Dra. Olanda Prieto Ordaz.

Curso práctico de Data Science centrado en el ciclo completo de un proyecto de Machine Learning: adquisición y limpieza de datos, análisis exploratorio, modelado supervisado y no supervisado, validación y despliegue. Este espacio me permitió aplicar técnicas de ML a problemas reales y construir artefactos reproducibles para mi portafolio.

  • Social_Network_Analysis Práctica introductoria desarrollada en Google Colab utilizando el libro Data Science from Scratch como referencia. El objetivo principal fue aplicar estructuras de datos en Python para resolver preguntas relacionadas con una pequeña red social ficticia de empleados.
  • Scrapping_Web Seguimiento de un tutorial de YouTube para scraping en Python; se añadió una etapa de análisis que extrae menciones de herramientas Open Source para Data Science y las agrupa por categorías (data management, integration, visualization, etc.). Se crearon gráficas que muestran la frecuencia de menciones por herramienta/categoría.
  • Linear_Regression Predicción del precio de automóviles. Incluye: partición Train/Test, EDA, pipeline de preprocesamiento (imputación, codificación, escalado cuando aplica), baseline de regresión lineal, búsqueda de hiperparámetros (Grid/Random), evaluación con RMSE y validación final en test.
  • End_to_end_project Proyecto end-to-end inspirado en el repositorio hands-on-ml2 (Andreas Géron). Flujo completo: EDA, pipeline de preprocesamiento, entrenamiento de modelos (Linear Regression, Decision Tree, Random Forest), ajuste con RandomizedSearchCV, comparación por RMSE y despliegue local del mejor modelo con Streamlit (interfaz para hacer predicciones).
  • Lung_Cancer_dataset_projects Implementación y comparación de múltiples modelos de Machine Learning a una base de datos de Kaggle sobre el Cáncer de Pulmon
  • Amazon_Predictor Sistema completo para predecir El precio de cierre ajustado (Adj Close) de Amazon usando datos históricos: EDA, creación de lags (features rezagadas), pipelines, comparación de modelos clásicos y redes (Ridge, SVR, RandomForest, Voting, AdaBoost, GradientBoosting, XGBoost, MLP, DNN, LSTM). Se seleccionó el mejor modelo según métricas (RMSE, MAE, MSE) y se desplegó localmente con Streamlit para predicción interactiva.

🚧 🧭 En Proceso

  • Completar todos los cursos de Kaggle para reforzar SQL, Machine Learning y otros temas relacionados
  • Agregar nuevas herramientas que se usan actualmente en el Análisis de datos
  • Realizar ejercicios de tipo Intermedio y Avanzado en Excel usando bases de datos inventadas o de Kaggle
  • Añadir más proyectos propios con datos reales o simulados
  • Mejorar continuamente la documentación y el diseño del portafolio

Repositorios y secciones actualizados al 06/12/2025.

About

Portafolio de Análisis de Datos con proyectos en Python, SQL, Excel, Machine Learning, Minitab y mucho más. Incluye cursos de Kaggle, prácticas y certificaciones. Se actualiza constantemente para reflejar mi crecimiento en análisis de datos y herramientas afines.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors