Limpieza de datos

Hands on!

Por Marcos Vanetta / @malev

Quién soy?

  • Marcos Vanetta
  • Hacks/Hackers Buenos Aires
  • Knight/Mozilla Fellow
  • The Texas Tribune
  • @malev

Qué tenemos?

  • Un dataset
  • Una pregunta

Consideraciones

  • Conocer valos máximos y mínimos
  • NA / None / Nada DISTINTO de 0
  • Periodos de fechas
  • Valores imposibles
  • Direcciones geo referenciadas
  • Categorías posibles

Documentar los pasos en la limpieza

Debemos poder reproducirla de la manera más automática posible.

Limpieza manual

  • Direcciones editadas
  • Clusterización / unificación
  • Nombres editados
  • Formato de teléfonos, fechas, etc.

biciproblemas.csv

Open Refine

  • Limpieza de contaminantes
  • Detección de valores numéricos
  • Cuidado con las emisiones de gases!

contaminants.csv

Encontrar condados y ciudades

emissions.csv

Expresiones regulares

Rubular

            value.match(/.*?(\d+).*?/)[0]
          

Parsear fechas

emissions.csv

Muchas gracias