Motivación#
En la actualidad, el análisis de datos se ha consolidado como un pilar fundamental para la toma de decisiones estratégicas en todos los sectores económicos. Herramientas como el aprendizaje estadístico permiten no solo clasificar y predecir comportamientos empresariales complejos, sino también segmentar mercados y personalizar servicios a gran escala, como lo hacen compañías líderes como Netflix o LinkedIn. Iniciar este curso representa la oportunidad de adquirir competencias altamente demandadas, que no solo transforman organizaciones, sino que también perfilan a quienes las dominan como actores clave en la economía digital.
Data Scientist: The Sexiest Job of the 21st Century de Harvard Business Review (Davenport & Patil, 2012)
¿Qué es un científico de datos?
Un profesional híbrido con capacidades en:
Programación.
Estadística y matemáticas.
Comunicación y visualización de datos.
Pensamiento creativo y estratégico.
¿Qué hacen?
Detectan patrones en datos complejos y desestructurados.
Generan productos, no solo reportes.
Traducen datos en decisiones de negocio impactantes.
¿Por qué son tan valiosos?
En un mundo de Big Data, los datos solos no generan valor. El valor está en el análisis.
Son escasos, altamente demandados y bien remunerados.
Se les compara con los quants de Wall Street en los años 90.
Ejemplos:#
Artículo: A Framework for Customer Segmentation to Improve Marketing Strategies Using Machine Learning
Autores: Aya Ashraf et al. (2025)
Publicado en Procedia Computer Science (ScienceDirect)
A Framework for Customer Segmentation to Improve Marketing Strategies Using Machine Learning
El artículo desarrolla un marco de segmentación de clientes usando algoritmos de clustering sobre un conjunto de datos reales de un minorista en el Reino Unido.
El objetivo es mejorar las estrategias de marketing personalizando la oferta a distintos tipos de clientes.
Dataset: Online Retail (de la Universidad de California Irvine, UCI). Contiene más de 1 millón de transacciones de clientes, con variables como:
Recency: cuánto tiempo ha pasado desde la última compra.
Frequency: cuántas veces ha comprado.
Monetary: cuánto ha gastado.
Técnicas aplicadas:
Aplicaron 4 algoritmos de clustering:
K-Means
Mini Batch K-Means
Spectral Clustering
Fuzzy K-Means
Identificaron 3 segmentos de clientes:
Artículo: Detection of COVID-19, lung opacity, and viral pneumonia via X-ray using machine learning and deep learning
Autores: Hajar Lamouadene et al.
Publicado en Computers in Biology and Medicine (2025)
Objetivo: detectar automáticamente en radiografías de tórax si un paciente tiene:
COVID-19
Neumonía viral
Opacidad pulmonar
o si está sano
Esto usando algoritmos de Machine Learning (SVM) y Deep Learning (CNN, VGG, ResNet, EfficientNet).
Dataset real con más de 21.000 imágenes de rayos X (público, Kaggle). Imágenes clasificadas manualmente por expertos.
Artículo: A comparative study of forecasting corporate credit ratings: Traditional vs. machine learning models
Autores: Mohammad A. Alsurrah, Mohammad A. Alzubi
Publicado en Information Sciences (Elsevier, 2020)
A comparative study of forecasting corporate credit ratings: Traditional vs. machine learning models
El artículo busca predecir la calificación crediticia de empresas (investment grade o no) utilizando:
Modelos tradicionales (regresión logística, redes bayesianas)
Modelos de aprendizaje automático supervisado como SVM, Random Forest, XGBoost, etc.
Dataset de empresas de EE.UU. tomados de la base de datos Compustat.
Utilizaron ratios financieros como:
Liquidez
Rentabilidad
Apalancamiento
Tamaño de la empresa
Variable dependiente: calificación crediticia asignada por S&P (convertida en binaria: investment grade / no investment grade).