jueves, 29 de enero de 2026

Elegir entre una prueba paramétrica y una no paramétrica no es cuestión de gustos, es cuestión de rigor científico.

 Comparar 2 grupos: T-Student (P) vs. U de Mann-Whitney (NP). Relacionar variables: Pearson (P) vs. Spearman (NP).
































1. El camino Paramétrico (La ruta de la precisión)
El Escenario: Imagina que estás evaluando el impacto de una política pública educativa en 500 estudiantes (Muestra grande). Tus datos son notas numéricas exactas (Variable de intervalo) y siguen una curva de campana perfecta (Distribución normal).
La Aplicación: Aquí no puedes dudar. Usas una T-Student o un ANOVA.
¿Por qué? Porque tus datos tienen la solidez suficiente para hacer suposiciones fuertes y calcular promedios con un margen de error mínimo. Si usaras una no paramétrica aquí, estarías perdiendo información valiosa.
2. El camino No Paramétrico (La ruta de la robustez)
El Escenario: Ahora imagina una investigación en psicología clínica o ciencias sociales cualitativas. Tienes solo 15 participantes (Muestra pequeña) y estás midiendo "niveles de satisfacción" en una escala Likert (Variable ordinal/categórica). Los datos están dispersos y no hay una curva normal.
La Aplicación: Forzar un promedio aquí sería un error grave. En su lugar, usas Rho de Spearman para correlaciones o Wilcoxon.
¿Por qué? Porque estas pruebas trabajan con rangos y medianas, no con promedios. Son ideales cuando los datos son "rebeldes" o escasos, permitiéndote validar hipótesis sin cumplir requisitos estrictos de normalidad.
Para que no te detengas en el análisis de datos, sigue este subproceso de 4 pasos en tu próxima investigación:
Diagnóstico de Normalidad: Antes de elegir, ejecuta una prueba de normalidad (como Shapiro-Wilk para n<50 o Kolmogorov-Smirnov para n>50).
¿p > 0.05? → Probablemente es Paramétrica.
¿p < 0.05? → Vete por la No Paramétrica.
Identificación de Variables:
¿Mides cantidades exactas (kg, cm, $)? → Camino Paramétrico.
¿Mides orden o jerarquías (Alto/Medio/Bajo, Rankings)? → Camino No Paramétrico.
Revisión del Tamaño (N): Si tu N es menor a 30, ten mucho cuidado con las paramétricas a menos que la normalidad sea perfecta. Ante la duda con muestras pequeñas, la opción no paramétrica suele ser más segura (menos potencia, pero menos error tipo I).
Selección de la "Navaja Suiza":

 Estos son los 12 conceptos matemáticos clave que todo Data Scientist, Data Analyst o ML Engineer debería dominar 👇.

1️⃣ Estadística descriptiva.
Entender los datos antes de modelar (media, mediana, dispersión).

2️⃣ Probabilidad.
La base para manejar incertidumbre y hacer predicciones.

3️⃣ Variables aleatorias y distribuciones.
Normal, binomial, Poisson… los datos no se comportan al azar.

4️⃣ Inferencia estadística.
Conclusiones válidas a partir de muestras (intervalos y pruebas).

5️⃣ Álgebra lineal.
Vectores y matrices: el corazón del Machine Learning.

6️⃣ Cálculo diferencial.
Cómo aprenden los modelos y minimizan errores.

7️⃣ Optimización matemática.
Entrenar un modelo = resolver un problema de optimización.

8️⃣ Regresión y modelos lineales.
La base de muchos modelos predictivos.

9️⃣ Correlación y dependencia.
Relaciones entre variables (sin confundir correlación con causalidad).

🔟 Reducción de dimensionalidad (PCA).
Menos ruido, mejores modelos.

1️⃣1️⃣ Teoría de la información.
Entropía y ganancia de información en ML.

1️⃣2️⃣ Métodos numéricos.
Aproximaciones cuando no hay soluciones exactas.







































🎯 En conclusión, no se trata de memorizar fórmulas, sino de entender qué hace el modelo y por qué funciona.
Las matemáticas te permiten pasar de usar herramientas a pensar como un(a) científico(a) de datos y tomar las mejores decisiones.


TOP 8 Machine Learning Classification Metrics - Explicadas sin tecnicismos

 Cuando trabajamos con modelos de clasificación, es común escuchar términos como Accuracy, Precision o Recall, pero no siempre todos en la sala vienen del mundo Data. Aquí te dejo una forma simple de entender las métricas usando un ejemplo cotidiano: detección de Spam 👇



🔍 𝗔𝗻á𝗹𝗶𝘀𝗶𝘀 𝗗𝗲𝘀𝗰𝗿𝗶𝗽𝘁𝗶𝘃𝗼: 𝗲𝗹 𝗽𝗿𝗶𝗺𝗲𝗿 𝗽𝗮𝘀𝗼 𝗽𝗮𝗿𝗮 𝗲𝗻𝘁𝗲𝗻𝗱𝗲𝗿 𝘁𝘂𝘀 𝗱𝗮𝘁𝗼𝘀 🔍

 En la era de la Ciencia de Datos, donde los algoritmos predictivos y los modelos de Machine Learning son protagonistas, hay un héroe silencioso que nunca pasa de moda: el Análisis Descriptivo.

📌 ¿𝗤𝘂𝗲́ 𝗲𝘀 𝗲𝗹 𝗔𝗻á𝗹𝗶𝘀𝗶𝘀 𝗗𝗲𝘀𝗰𝗿𝗶𝗽𝘁𝗶𝘃𝗼?
Es el conjunto de técnicas estadísticas que nos permiten resumir, organizar y visualizar los datos para entender sus características principales, sin hacer predicciones complejas.

Se responde a preguntas como:
📈 ¿Cuáles son los valores más comunes?
📍 ¿Dónde se concentran los datos?
⚠️ ¿Existen valores anómalos?
🔄 ¿Cómo varían los datos entre sí?


🛠️ 𝗣𝗮𝘀𝗼𝘀 𝗰𝗹𝗮𝘃𝗲 𝗱𝗲𝗹 𝗔𝗻á𝗹𝗶𝘀𝗶𝘀 𝗗𝗲𝘀𝗰𝗿𝗶𝗽𝘁𝗶𝘃𝗼
1️⃣ Exploración: revisar datos y variables, detectar valores faltantes. ❓
2️⃣ Resumen estadístico: media, mediana, moda, rango, desviación estándar.📏
3️⃣ Visualización: histogramas, boxplots, gráficas de barras y líneas. 📊
4️⃣ Interpretación: detectar patrones, outliers y sacar conclusiones. 🧠
Una buena visualización puede revelar patrones que los números por sí solos no muestran.

📐 𝗥𝗲𝗹𝗮𝗰𝗶𝗼́𝗻 𝗰𝗼𝗻 𝗹𝗮 𝗘𝘀𝘁𝗮𝗱𝗶́𝘀𝘁𝗶𝗰𝗮 𝘆 𝗖𝗶𝗲𝗻𝗰𝗶𝗮 𝗱𝗲 𝗗𝗮𝘁𝗼𝘀
El Análisis Descriptivo es el corazón de la Estadística y la base del EDA (Exploratory Data Analysis) en Ciencia de Datos.