Qué es, qué no es y de dónde salen los datos para hacer periodismo de datos

[huge_it_share]Hassel Fallas autor

Reflexiones sobre el panel: Periodismo y Datos abiertos presentado durante el #Abrelatam15 y #ConDatos15  en Santiago de Chile en setiembre de 2015

Segunda parte

Definiciones de Periodismo de Datos existen múltiples y aunque haya quienes afirmen que es una manía tratar de conceptualizarlo, al menos es importante tener un marco de referencia que nos permita dimensionar sus alcances.

Por ejemplo, Meredith Broussard, profesora de Temple University opina que “El periodismo de datos es la práctica de encontrar noticias en los números y usar los números para narrar noticias”.

Personalmente, creo que el Periodismo de Datos va más allá. Se trata de producir una investigación o reportaje de interés público a partir de la creación y análisis de bases de datos; contengan estas millones, miles o centenares de registros.

Los resultados se evidencian en publicaciones que pueden incluir visualizaciones de datos, aplicaciones de noticias, la explicación metodológica y el acceso al público de la matriz de datos del proyecto.

Sin importar la diversidad de criterios sobre lo que es periodismo de datos hay una condición fundamental para hacerlo. Ese insumo son los datos estructurados.

Es decir información que está contenida en una base de datos comprensible para ser procesada por una computadora. Eso nos permite hacer cálculos, cruzar bases de datos y plantear modelos estadísticos o matemáticos para su análisis.

data

¿Qué no es periodismo de datos?

El Periodismo de Datos no se trata de tomar un informe con números y extraer de él cinco o seis datos interesantes. A partir de ellos escribir un artículo o sintetizarlos en una pieza gráfica.

Tampoco son números desestructurados, como los que anotamos en una hoja de papel; una hoja de Word o incluso de un Excel.

Este tuit, publicado por el Máster en Visualización de Datos sintetiza también lo que no es periodismo de datos

Para que haya periodismo de datos necesitamos un volumen considerable de datos para analizar, buscar tendencias, cruzar con otras bases y muy importante: contextualizar los resultados y eso incluye el ineludible reporteo. Salir a la calle.

no es
¿Qué es un dato? «Un dato es una representación simbólica (numérica, alfabética, algorítmica, espacial, etc.) de un atributo o variable cuantitativa o cualitativa» Añado: debe ser estructurado, comprensible para ser procesado por una computadora. Un dato por sí solo no dice mucho, comparado y en contexto es capaz de contar la mejor de todas las historias. En la imagen ejemplos de datos SIN ESTRUCTURA

¿De dónde salen las bases de datos?

En mi país, Costa Rica, en términos generales hay suficiente normativa para garantizar el acceso a la información pública, respetar la libertad de prensa y de expresión y promover la transparencia de las instituciones.

También existe importante jurisprudencia a favor del derecho a la petición y de acceso a la información. Siempre y cuando estos no afecten derechos de otros ciudadanos. Se excluye, por ejemplo, acceso a cuentas bancarias, declaración de renta, expediente médico, número telefónico, dirección de la vivienda, fotografía o lugar de trabajo (excepto para funcionarios públicos).

Sin embargo, no se cuenta, todavía, con una ley que por sí misma defina las pautas para acceder a la información pública.

Hasta ahora, en la Unidad de Inteligencia de Datos de La Nación, en Costa Rica, la mayoría de nuestros proyectos se han fundamentado en peticiones de acceso a bases de datos públicas.

Es decir, aquellas bases que no se encuentran listas para descargar de Internet con todas las variables necesarias para fines periodísticos y sin lesionar derechos ciudadanos anteriormente citados.

Para conseguir la información administrativa de nuestro interés hemos tenido que recurrir a peticiones formales vía correo electrónico y mediante oficios físicos.

Sin embargo, los formatos de datos abiertos y semiabiertos existentes en los portales del Instituto Nacional de Estadística y Censos, el Tribunal Supremo de Elecciones, la Promotora de Comercio Exterior, el Banco Central de Costa Rica, la Contraloría General de la República, la Caja Costarricense del Seguro Social, el Centro Centroamericano de la Población de la Universidad de Costa Rica y el Poder Judicial, por mencionar los más recurrentes, han sido un insumo de peso para agilizar el desarrollo de algunas publicaciones.

En la mayoría de esos sitios de Internet se pueden conseguir datos en formato de Excel o CSV. Sin embargo, en casos como los del INEC, la CCSS, y el CCP es necesario conocer lo básico de sistemas como Redatam, una herramienta para administrar bases de datos y consultas.

Lo anterior para poder combinar bases de datos, cruzar las variables y construir filtros que darán forma a la tabla con información de su interés.

Screenshot_1
Nuestro proyecto: Menos niños en las aulas es un análisis con base de datos suministrada por el Informe Estado de la Educación y el Departamento de Estadística del Ministerio de Educación Pública. Además, se utilizaron datos del Instituto Nacional de Estadística y Censos, la Caja Costarricense del Seguro Social y el Centro Centroamericano de Población de la Universidad de Costa Rica.

Mayor disponibilidad de datos abiertos, sin duda, agilizaría nuestra función periodística, nos permitiría hacer más.

Sin embargo los datos abiertos disponibles deben de ser íntegros, de calidad, completos, actualizados en el tiempo y con valor e interés público para ser analizados.

Sobre este último punto, no se trata de colgar en línea lo que sea y hacer un gráfico con los cinco datos que a un funcionario le parecieron interesantes (ocurre, en ocasiones).

Se trata de dar acceso a bases de datos relevantes como:

  • Patentes comerciales por tipo, ubicadas por distrito en cada cantón, vigencia.
  • Matrícula inicial y final en cada centro educativo del país por grado, tipo de institución y su ubicación geográfica.
  • Estadísticas de turismo desagregadas por origen del visitante, tipo de vía de ingreso.
  • Costo de Canasta Básica Alimentaria por grupo de alimentos.
  • Tipos de delitos por categoría y ubicación del hecho, por citar unos ejemplos.

Sobre: ¿qué son datos íntegros y de calidad? Una base de datos cumple con la integridad cuando contiene datos precisos, confiables y completos. La información no suprime variables importantes, como las bases para calcular porcentajes, por ejemplo. Sino que la misma se presenta en su estado más puro.

La calidad de esa información depende de que en ella no haya, por ejemplo, errores de digitación de cifras o de ortografía; repeticiones o espacios en blanco.

Validar que ambos principios se cumplan es un factor crítico que debe garantizarse antes de emprender cualquier tipo de análisis.

Liberar datos

En la Unidad, aquellos sets utilizados para sustentar proyectos de investigación, análisis y visualización de datos pueden ser descargados por quienes deseen explorar la información por su propia cuenta.

Estas bases están disponibles y acompañan, generalmente, al artículo que explica la metodología seguida para realizar el análisis. Incluir la explicación del método seguido es una regla fundamental del Periodismo de Datos. Es vital que el lector sepa cómo se llevó a cabo el estudio, cada paso seguido por el periodista, las exclusiones o inclusiones de cifras que hizo, los criterios aplicados, entre otros.

A la fecha, están disponibles las siguientes bases:

Nuestra intención es contarle al lector el proceso aplicado a los datos, por si desea replicarlo, criticarlo o mejorarlo. Para ello, es vital que tenga acceso a los datos usados en el estudio.

error: No se puede descargar