Clasificación#
Clasificación en Aprendizaje Estadístico#
La clasificación es una de las tareas fundamentales en el campo del Machine Learning y la estadística, con aplicaciones directas en el ámbito financiero.
Su objetivo es predecir la clase o categoría a la que pertenece una observación, en función de sus características (variables o features).
Se enmarca dentro del aprendizaje supervisado, ya que el algoritmo aprende a partir de un conjunto de datos etiquetados.
Tipos de clasificación#
1. Clasificación Binaria
Definición: consiste en asignar una de dos posibles categorías.
Ejemplos en finanzas:
Determinar si un préstamo será pagado o caerá en default.
Predecir si el precio de una acción subirá o bajará.
2. Clasificación Multiclase
Definición: el objetivo es predecir una clase entre tres o más categorías mutuamente excluyentes.
Ejemplos en finanzas:
Clasificar el riesgo crediticio en bajo, medio o alto.
Identificar el sector económico de una empresa (tecnología, salud, energía, finanzas).
3. Clasificación Multietiqueta
Definición: cada observación puede pertenecer a varias clases simultáneamente.
Ejemplos en finanzas:
Etiquetar transacciones financieras con múltiples categorías de fraude.
Asignar diferentes tipos de riesgo a un portafolio (riesgo de mercado, liquidez, crédito).
Algoritmos de clasificación#
A continuación, se presentan los algoritmos más relevantes, con sus ventajas, limitaciones y aplicaciones en finanzas.
1. Regresión Logística
Descripción: modelo estadístico que estima la probabilidad de pertenencia a una clase binaria utilizando la función logística (sigmoide).
Ventajas:
Simple y fácil de interpretar.
Rápido de entrenar.
Adecuado para scoring de riesgo crediticio o predicción de impago.
Desventajas:
Supone relación lineal entre las variables independientes y el logit.
Tiene dificultades para capturar relaciones no lineales complejas.
2. Árboles de Decisión
Descripción: dividen los datos en subconjuntos mediante reglas condicionales, formando una estructura de árbol.
Ventajas:
Muy interpretables y fáciles de visualizar.
Manejan bien variables categóricas y continuas.
Aplicables en evaluación crediticia o segmentación de clientes.
Desventajas:
Alta propensión al overfitting.
Sensibles a pequeñas variaciones en los datos.
3. Máquinas de Vectores de Soporte (SVM)
Descripción: buscan el hiperplano óptimo que maximiza la separación entre clases en el espacio de características.
Ventajas:
Eficaces en espacios de alta dimensión.
Funcionan bien con una clara separación de clases.
Útiles en la detección de fraudes financieros.
Desventajas:
Poco intuitivos y difíciles de interpretar.
Dependen fuertemente del kernel y de la correcta elección de parámetros.
4. Redes Neuronales Artificiales (RNA)
Descripción: modelos inspirados en el cerebro humano, capaces de aprender representaciones complejas de los datos.
Ventajas:
Capturan relaciones no lineales sofisticadas.
Flexibles y muy potentes.
Útiles en predicción de series financieras, clasificación de imágenes (cheques, facturas) o trading algorítmico.
Desventajas:
Requieren gran cantidad de datos y recursos computacionales.
Dificultad de interpretación (cajas negras).
Comparación de algoritmos de clasificación#
Algoritmo |
Int erpreta bilidad |
Complejidad C omputacional |
Capacidad para No Linealidades |
Ejemplo en Finanzas |
---|---|---|---|---|
Regresión Logística |
Alta |
Baja |
Baja |
Scoring de riesgo cr editicio |
Árboles de Decisión |
Alta |
Media |
Media |
Ev aluación de p réstamos |
SVM |
Media |
Alta |
Alta |
D etección de fraudes |
Redes Neuronales |
Baja |
Muy alta |
Muy alta |
Pr edicción de precios de activos |
Métricas de evaluación en clasificación#
Exactitud (Accuracy): proporción de observaciones clasificadas correctamente.
Precisión (Precision): proporción de verdaderos positivos sobre los predichos como positivos.
Recall o Sensibilidad: proporción de verdaderos positivos sobre el total de positivos reales.
F1-Score: media armónica entre precisión y recall, útil en datos desbalanceados.
Matriz de confusión: tabla que resume los aciertos y errores de clasificación.
ROC y AUC: evalúan el desempeño del clasificador en diferentes umbrales de decisión.