Este proyecto implementa un framework de Machine Learning diseñado para la detección de anomalías en reclamos de seguros de automóviles, específicamente optimizado para enfrentar el desbalance de clases extremo en entornos financieros.
La detección de fraude se aborda no como una clasificación binaria estándar, sino como un problema de identificación de señales débiles en sistemas estocásticos. La arquitectura del proyecto sigue un pipeline de ingeniería de datos robusto:
- Exploratory Data Analysis (EDA): Identificación de hotspots geográficos (California) y anomalías en la facturación médica mediante distribuciones Beta.
- Feature Engineering: Transformación de variables categóricas y normalización de montos de reclamos.
- Resampling Strategy (SMOTE): Balanceo sintético de la clase minoritaria para estabilizar la función de pérdida del modelo.
- Threshold Optimization: Ajuste del umbral de decisión para maximizar la utilidad sistémica.
En el contexto de GM Financial, el costo de un Falso Negativo () es significativamente superior al de un Falso Positivo (). Por ello, el modelo se optimiza para maximizar el Recall:
Donde:
- TP (True Positives): Fraudes detectados correctamente.
- FN (False Negatives): Fraudes no detectados (fuga de capital).
- Lenguaje: Python 3.x
- Modelado:
XGBoost,Scikit-learn,Imbalanced-learn(SMOTE) - Análisis de Datos:
Pandas,NumPy - Visualización:
Matplotlib,Seaborn
| Modelo | Precision | Recall | F1-Score |
|---|---|---|---|
| Baseline (RF) | 1.00 | 0.04 | 0.07 |
| Optimized (SMOTE + Tuning) | 0.18 | 0.28 | 0.21 |
Impacto Proyectado: La implementación de estas técnicas permitió un incremento del 600% en la sensibilidad del modelo, permitiendo la identificación temprana de patrones que representan ahorros potenciales de millones de dólares en prevenciones de fraude no detectado.
- Clonar el repositorio:
git clone https://github.com/tu-usuario/fraud-detection-insurtech.git - Crear entorno virtual:
python -m venv .venv - Instalar dependencias:
pip install -r requirements.txt - Ejecutar el pipeline principal:
python AUTO.py