- Bytes y Café
- Posts
- ☕ Byte del dia: Handling Missing Values with the Median (Web Analytics Dataset)
☕ Byte del dia: Handling Missing Values with the Median (Web Analytics Dataset)
Un byte a la vez: desarrollándo la ingeniería día a día.
✅ Suggested Additions
1. 🛠️ Corrección del paso 2 (mediana)
Your code calculates and fills the median, but the assignment is missing. You should update this line:
analytics_data['age'].fillna(age_median)
✅ To:
analytics_data['age'].fillna(age_median)
So that the changes are saved.
2. 📈 Visual aid idea
You can include a small histograma
of the age
column before y después de rellenar los valores faltantes:
import matplotlib.pyplot as plt
analytics_data['age'].hist(bins=20)
plt.title('Distribución de edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()
3. ✅ ¿Cómo eliminar duplicados?
You're detecting duplicates, but you could show how to remove them too:
# Eliminar filas duplicadas
df_students_cleaned = df_students.drop_duplicates()
And optionally:
# Eliminar filas duplicadas
print("Filas originales:", len(df_students))
print("Filas después de eliminar duplicados:", len(df_students_cleaned))
🧠 Resumen (mejorado para redes o docencia):
❌ Valores faltantes → afectan la integridad.
✅ Usa.fillna()
con la mediana para no distorsionar.❌ Filas duplicadas → inflan métricas.
✅ Detecta con.duplicated()
, elimina con.drop_duplicates()
.
Reply