• Bytes y Café
  • Posts
  • ☕ Byte del dia: Handling Missing Values with the Median (Web Analytics Dataset)

☕ Byte del dia: Handling Missing Values with the Median (Web Analytics Dataset)

Un byte a la vez: desarrollándo la ingeniería día a día.

✅ Suggested Additions

1. 🛠️ Corrección del paso 2 (mediana)

Your code calculates and fills the median, but the assignment is missing. You should update this line:

analytics_data['age'].fillna(age_median) 

✅ To:

analytics_data['age'].fillna(age_median)

So that the changes are saved.

2. 📈 Visual aid idea

You can include a small histograma of the age column before y después de rellenar los valores faltantes:

import matplotlib.pyplot as plt

analytics_data['age'].hist(bins=20)
plt.title('Distribución de edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

3. ✅ ¿Cómo eliminar duplicados?

You're detecting duplicates, but you could show how to remove them too:

# Eliminar filas duplicadas
df_students_cleaned = df_students.drop_duplicates()

And optionally:

# Eliminar filas duplicadas
print("Filas originales:", len(df_students))
print("Filas después de eliminar duplicados:", len(df_students_cleaned))

🧠 Resumen (mejorado para redes o docencia):

  • ❌ Valores faltantes → afectan la integridad.
     ✅ Usa .fillna() con la mediana para no distorsionar.

  • ❌ Filas duplicadas → inflan métricas.
     ✅ Detecta con .duplicated(), elimina con .drop_duplicates().

Reply

or to participate.