Entrevista con una base de datos

Compartir

Hassel Fallas autor

Una base de datos es como cualquier otra fuente a la que diariamente nos enfrentamos los periodistas. Es propensa a contarnos mentiras, escondernos información, darnos un panorama parcial de un fenómeno e inducir a equivocaciones.

Aunque esperamos mucho de los números, lo cierto es que son falibles y no poseen la verdad absoluta porque, simple y sencillamente, las bases de datos están confeccionadas por personas. En ellas puede haber errores involuntarios o deliberados y siempre es recomendable tenerlo presente antes de utilizarlas como cimiento para una investigación periodística.

Esa es la razón por la cual es fundamental aplicarle a cualquier banco de números la misma rigurosidad que a nuestras fuentes humanas o documentales: validar su contenido, verificando su autenticidad con terceros.

El reporteo convencional no solo es ineludible sino una obligación en el periodismo de datos para evitar la publicación de conclusiones erróneas, que podrían terminar siendo una tragedia para la carrera del periodista y hasta de su medio.

La preparación.

Teniendo claridad sobre esos puntos, lo siguiente por hacer previo a entrevistar una base de datos es conocerla a fondo. Indagar exhaustivamente sobre:

  • ¿Quién recopiló los números y cuáles fueron sus propósitos?
  • ¿Cómo fue la metodología de recolección?
  • ¿Qué tan confiable es la persona o institución que la construyó?
  • ¿El documento está completo, se excluyó alguna información o se trata de uno que sólo contiene algunos cruces de datos básicos para intentar satisfacer los requerimientos del periodista?
  • ¿Qué intereses persigue la persona que entrega la data?
  • O por el contrario, ¿qué puede estar tratando de ocultar la persona o institución que se niega a proporcionarla?
  • ¿Ese registro de cifras provee toda la información necesaria para iniciar un proyecto, se debe buscar otras bases o incluso crear las propias?

Obsesiónese.

Contestadas esas preguntas y si la mayoría de las respuestas son satisfactorias para el periodista, lo siguiente es pasar mucho tiempo examinando –a veces hasta la obsesión- a esas hojas de cálculo en Excel, Tableau, SPSS, SQL o cualquier programa informático que se utilice para el análisis de la información. Personalmente, recurro a los dos primeros porque he comprobado que, hasta ahora, sobran y bastan en la ejecución de la mayoría de los estudios de periodismo de datos que he realizado.

Sólo si invierte una buena cantidad de horas comprendiendo la estructura de una base de datos será posible entrevistarla adecuadamente y extraer las conclusiones significativas y jugosas que se convertirán en los pilares de un proyecto exitoso.

Hacerlo es vital para percatarse de inconsistencias como errores de digitación en las cifras y nombres repetidos o escritos de diferente manera aunque pertenezcan a una misma entidad. Esos son descuidos que derivarán en cálculos subestimados y alterarán los resultados de la investigación.

Un ejemplo de eso nos ocurrió durante un proyecto sobre exclusión estudiantil (deserción) en secundarias públicas que efectuamos en la Unidad de Inteligencia de Datos de La Nación de Costa Rica. Cuando mi colega Amy Ross y yo inspeccionábamos la base de datos con la información de 643 colegios, uno de ellos resaltó como el que más disminuyó el fenómeno en todo el país.

Los números consignados en el registro oficial del Ministerio de Educación Pública decían que en esa institución la fuga de alumnos había pasado de un 68% de la matrícula en 2011 a 14% en 2013. Es decir el problema decreció en 53 puntos. El cambio era tan extremo que despertó sospechas. Cuando conversé con el director de ese centro educativo para contrastar los datos absolutos y relativos, él revisó sus expedientes y me confirmó la mala digitación de la cifra de abandono estudiantil del año pasado; la real alcanzó al 50% de sus alumnos.

Screenshot_2

Otro beneficio de explorar una base de datos a profundidad es advertir faltantes de números.

Una vez más en el proyecto de deserción colegial nos llamó la atención que en una de las instituciones grandes (más de 1.000 alumnos), la exclusión de estudiantes había pasado de 445 en 2012 a nada en 2013.

Evidentemente allí faltaba un dato. En efecto, el Ministerio de Educación Pública nos corroboró que “por un error involuntario” no se incluyó en esa celda a los 694 estudiantes que abandonaron el centro de enseñanza en 2013. Ese número era significativo; sin él habríamos pasado por alto que esa secundaria es una donde es más problemático el abandono escolar.

Es crítico ser meticuloso con esos detalles. Solo imagine lo que podría ocurrir si, usando el registro de cifras de criminalidad de su país, no advierte la ausencia de números de robos, asaltos o asesinatos en municipios clave. Todo su trabajo se iría a la basura porque arribaría a conclusiones falsas.

Interróguela.

Una vez terminado el examen profundo a la base de datos sabrá con precisión si esta es capaz o no de resolverle, parcial o totalmente, las incógnitas que tiene sobre el tema a indagar. Conviene, entonces, listar las preguntas a las que buscará respuesta cuando analice el documento en Excel con la ayuda de filtros y tablas pivote.

Si no sabe cómo usar esas herramientas, le recomiendo estos tutoriales del Centro para el Periodismo de Investigación y del Consorcio Internacional de Periodistas de Investigación.

Supongamos que la base en cuestión es la de criminalidad que mencioné arriba. Yendo de lo general a lo específico, algunas consultas básicas que puede incluir esa entrevista a los datos son:

  • ¿Cuál es la cantidad de crímenes totales que hubo en el país durante el año o años para los que cuenta con cifras?
  • ¿Ha aumentado o descendido la criminalidad?
  • ¿Cuáles son los tipos de crímenes más comunes y su frecuencia por año?, ¿han subido o decrecido?
  • ¿Cuál es el municipio donde más ha incrementado la criminalidad, en general y por tipo de incidente?
  • Por el contrario, ¿cuál es el municipio donde bajaron los indicadores de crimen?

Recuerde siempre para casos como este o de incidencia de enfermedades, calcular las tasas por cada 10 mil o 100 mil habitantes. Es la manera más fehaciente de corroborar si un fenómeno se ha disparado o aplacado en el tiempo. Para ello, debe tener el dato de la cantidad total de la población del país o de cada municipio para los años de interés.

Supongamos que en su jurisdicción hubo 40 delitos graves el año pasado y la cantidad de habitantes total es de 50 mil La fórmula en Excel para calcular la tasa es la siguiente:

Utilizando ese ejemplo se concluye que hubo 8 crímenes por cada 10 mil habitantes durante 2013. Cabe preguntarse: ¿esa cantidad es más o menos que en 2004 cuando se registraron 25 crímenes en total?

Si la población del 2004 en la ciudad era de 30 mil personas, siguiendo la fórmula anterior, concluiríamos que la tasa de criminalidad se ha mantenido en 8 crímenes por cada 10 mil habitantes.

Con ese dato comparativo usted podría plantearse:

  • ¿Cuál fue el comportamiento de la criminalidad en mi municipio para cada uno de los años correspondiente a 2005 y hasta 2012?
  • ¿Se mantuvo la tasa cerca de los 8 actos violentos por cada 10 mil habitantes o hubo variaciones entre años?
  • ¿Esos cambios fueron abruptos o no?
  • Si fueron abruptos los cambios: ¿por qué el combate a la criminalidad es un sube y baja de un año a otro?
  • Si la tasa es estable, ¿por qué se mantiene así?
  • ¿Cuántos policías por cada 10 mil habitantes hay en la ciudad?
  • ¿Cuál es el presupuesto que las autoridades invierten anualmente en seguridad?
  • ¿Es alta o baja la tasa de criminalidad de mi municipio respecto de los otros de la provincia o del país?

Como puede observar, una base de datos puede y debe ser entrevistada en varias ocasiones durante la investigación; igual que ocurre con cualquier otra fuente. Además, a menudo, algunas de las respuestas que le dará desencadenarán nuevas preguntas cuyas respuestas estarán inmersas en otras bases de datos o recurriendo a documentos y voceros oficiales.

Finalmente, nunca olvide reflexionar sobre la más crucial de las preguntas por hacer a una base de datos: ¿por qué es importante para la gente la historia que cuentan sus cifras?

Un periodista puede tener el mejor análisis de data y las mejores conclusiones, pero si olvida mostrar el lado humano de los números, su reportaje carecerá de significado.

Hassel Fallas (@HasselFallas)

Trabaja en la Unidad de Inteligencia de Datos del diario La Nación, Costa Rica. Ha participado en diversos proyectos de visualización de datos y exploración de narrativa multimedia. Máster en Periodismo Digital de la Universidad de Alcalá de Henares, España. Tiene además una especialización en el Centro de Periodismo Digital de la Universidad de Guadalajara y en el Instituto de Tecnología de Costa Rica. Recibió el primer lugar en Desafío InnovaData 2013 y fue residente de ProPublica gracias a una beca Douglas Tweedale del ICFJ. Artículo originalmente publicado en el Manual de Periodismo de Datos Iberoamericano


Compartir