Extracción de datos

Hands on!

Por Marcos Vanetta / @malev

Quién soy?

  • Marcos Vanetta
  • Hacks/Hackers Buenos Aires
  • Knight/Mozilla Fellow
  • The Texas Tribune
  • @malev

Qué es un dato?

  • Información concreta sobre hechos, elementos, etc., que permite estudiarlos, analizarlos o conocerlos
  • En informática, información que se suministra al ordenador y que este almacena de forma legible.
  • Representación simbólica (numérica, alfabética, algorítmica, espacial, etc) de un atributo o variable cuantitativa o cualitativa.
  • Un valor que se le añade a algo.

Para qué queremos datos?

Para contar una historia

Responder una pregunta

Explorarlos

Tipos de datos

  • Cualitativos
  • Cuantitativos
  • Categóricos
  • Discretos
  • Continuos

Datos estructurados o desestructurados

Dónde encontramos los datos?

Portales/Catálogos de datos

  • Gobiernos
  • Universidades
  • Institutos de investigación
  • ONGs
  • Privados (empresas)
  • Organizaciones periodísticas

Los pedimos

  • Usamos el teléfono
  • FOIA

Los generamos

  • Encuestas
  • Sensores
  • ...

Cómo pueden venir los datos

  • Planilla de cálculo (CSV, Excell, ODS)
  • JSON, XML, HTML
  • Una base de datos
  • PDF, Word
  • Quién sabe?

(╯°□°)╯︵ ┻━┻

Manos a la obra

goo.gl/lpJoD8

Algunos portales

Datos en portales

Identificar

  • Contenido
  • Fuente
  • Formato del dataset
  • Tipos de datos en el dataset
  • Rango de datos

Datos en la WEB (scraping)

  • https://www.kimonolabs.com
  • http://www.diputados.gov.ar/diputados/listadip.html

Datos en la WEB (fusion tables)

  • http://www.clarin.com/edicion-impresa/Cruce-importadores-Central_0_1218478144.html

Datos en PDFs

  • Texto
  • Tablas
  • Datos en imágenes

Extraer text/entidades de un PDF

Extraer datos de una tabla en un PDf

  • Tabula

Dónde los almacenamos?

  • CSV
  • Base de datos

Muchas gracias