Preguntas frecuentes sobre el proyecto JEP-CEV-HRDAG de integración de datos y estimación estadística
- ¿Hay una fuente de información única sobre las víctimas del conflicto armado en Colombia?
No. Colombia cuenta con un amplio proceso de documentación de víctimas del conflicto armado. Cientos de entidades, organizaciones de víctimas y organizaciones de la sociedad civil han focalizado sus esfuerzos en registrar la información. Sin embargo, cada entidad u organización desarrolla este proceso con las limitaciones propias de capacidades técnicas, logísticas, sociales y de misionalidad, lo que conduce a que ninguna entidad ni organización logre documentar el universo completo de víctimas. Esto se debe a que les es imposible llegar a cada rincón del país, conocer qué fue exactamente lo que pasó y quién era la víctima. De hecho, si se comparan las dos bases de datos principales (el Registro Único de Víctimas de la Unidad Administrativa Especial para la Atención y Reparación Integral a las Víctimas y el Observatorio de Memoria y Conflicto del Centro Nacional de Memoria Histórica) se encuentran grandes diferencias. No solo por la magnitud, sino también por las definiciones que utilizan, los períodos y regiones que cubrieron.De hecho, en el proyecto incluímos 112 bases de datos. Por un lado, instituciones del Estado, como el Centro Nacional de Memoria Histórica, el Instituto Colombiano de Bienestar Familiar, la Agencia para la Reincorporación y la Normalización; el Instituto Nacional de Medicina Legal y Ciencias Forenses; la Jurisdicción Especial para la Paz; la Procuraduría General de la Nación; la Policía Nacional; el Registro Único de Víctimas; entre otras. Por otro lado, organizaciones de la sociedad civil, como la Asociación Nacional de Usuarios Campesinos, la Coordinación Colombia Europa Estados Unidos; el Instituto de Estudios para el Desarrollo y la Paz; la Organización Nacional Indígena de Colombia; País Libre, entre otras.
- ¿Por qué no utilizar solo una base de datos de las que ya existen?
Todas las bases de datos que documentan violaciones a derechos humanos, incluso la que tenga más registros, tienen dos tipos de vacíos de información: campos faltantes y registros faltantes o subregistro. A continuación explicamos cada uno de ellos.El primer tipo de vacío de información son los campos faltantes y se limita a los datos registrados. Todas las bases de datos cuentan con distintos campos: algunos están relacionados con el hecho (como el año, municipio, departamento y perpetrador), mientras que otros están relacionados con las personas (nombre, apellido, edad, sexo y etnia, entre otros). Sin embargo, cuando las organizaciones o instituciones documentan los hechos victimizantes, no siempre tienen la información completa y es normal que algunos campos queden vacíos para algunos registros. Hay muchas situaciones en las que esto puede ocurrir. Por ejemplo, puede suceder que se tenga registro de la persona, pero no se sepa el día exacto en el que ocurrió el hecho; o tal vez se tiene el nombre y apellido, pero no la cédula; mientras que en algunas ocasiones no se conoce la etnia; entre otras. Además de que el campo esté vacío, puede suceder que tenga información incorrecta, como un error de digitación de la cédula o un error ortográfico en el nombre o apellido.El segundo tipo de vacío de información es el subregistro y va más allá de los datos registrados. El subregistro se explica porque hay víctimas que no están documentadas, lo que puede ocurrir por distintos motivos. Por ejemplo, puede deberse a que la víctima o sus familiares tengan miedo de hacer la denuncia y opten por el silencio; también puede ocurrir que el hecho victimizante haya tenido lugar en un sitio muy lejano, al queno lleguen las organizaciones o instituciones; podría ser porque aunque fueron víctimas dentro del marco del conflicto armado, se registró una violación distinta a la que sufrieron; sus cuerpos fueron encontrados, pero no han sido identificados; o sus cuerpos fueron tirados a ríos o fosas comunes y no hay ningún registro. A diferencia del primer tipo de vacío de información, en este caso no se conoce cuántos registros faltan.Para corregir los dos tipos de vacío de información fue necesario utilizar métodos de imputación estadística para completar campos faltantes y métodos de estimación del subregistro por medio de captura-recaptura a partir de la integración de distintas fuentes de información.
- ¿Qué fuentes de información se usaron en el proyecto?
Usamos 112 bases de datos aportadas por 44 instituciones del Estado, organizaciones de víctimas y organizaciones de la sociedad civil. La información proviene de instituciones del Estado, como el Centro Nacional de Memoria Histórica, el Instituto Colombiano de Bienestar Familiar, la Agencia para la Reincorporación y la Normalización; el Instituto Nacional de Medicina Legal y Ciencias Forenses; la Jurisdicción Especial para la Paz; la Procuraduría General de la Nación; la Policía Nacional; el Registro Único de Víctimas; entre otras; y organizaciones de la sociedad civil, como la Asociación Nacional de Usuarios Campesinos, la Coordinación Colombia Europa Estados Unidos; el Instituto de Estudios para el Desarrollo y la Paz; la Organización Nacional Indígena de Colombia; País Libre, entre otras.
- ¿Quiénes participaron en el proyecto?
El proyecto fue desarrollado por la Jurisdicción Especial para la Paz (JEP), la Comisión para el Esclarecimiento de la Verdad, Justicia, Reparación y No Repetición (CEV) y el Grupo de Análisis de Datos en Derechos Humanos (HRDAG).
- ¿Existe un documento que detalle la metodología del proyecto?
Sí. El “Anexo proyecto JEP-CEV-HRDAG” presenta los métodos utilizados en el proyecto.
- ¿Si unimos todas las bases de datos estaríamos contando más víctimas cuando alguna es registrada en varias fuentes de información?
Depende. La unión directa de todas las fuentes sin procesos exhaustivos de preparación de la información e identificación de víctimas únicas puede producir información errónea al no prevenir ese doble conteo. Por ello, para realizar la integración de información de forma correcta, en el proyecto utilizamos procedimientos de vinculación de los registros, también conocidos como “deduplicación”. Estos procedimientos consisten en dejar un solo registro de cada víctima para evitar dobles conteos, identificando en cada una de ellas las fuentes de información de procedencia a través de métodos de aprendizaje automático.
- ¿No pueden unirse los registros simplemente por cédula?
No. No todos los registros tienen la cédula y, en caso de que la tuvieran, son comunes los errores de digitación. Por eso fue necesario usar métodos de aprendizaje automático para hacer la deduplicación.
- ¿Qué fuentes de información unieron?
Integramos 112 bases de datos aportadas por 44 instituciones del Estado, organizaciones de víctimas y organizaciones de la sociedad civil. La información proviene de instituciones del Estado, como el Centro Nacional de Memoria Histórica, Instituto Colombiano de Bienestar Familiar, la Agencia para la Reincorporación y la Normalización; el Instituto Nacional de Medicina Legal y Ciencias Forenses; la Jurisdicción Especial para la Paz; la Procuraduría General de la Nación; la Policía Nacional; el Registro Único de Víctimas; entre otras; y de organizaciones de la sociedad civil, como la Asociación Nacional de Usuarios Campesinos, la Coordinación Colombia Europa Estados Unidos; el Instituto de Estudios para el Desarrollo y la Paz; la Organización Nacional Indígena de Colombia; País Libre, entre otras.El resultado de la primera integración fueron 26 millones de registros. De estos, 12,8 millones son registros de personas que contaban por lo menos con datos de nombre, apellido, año y departamento y corresponden a los cinco hechos de violencia que consideramos en nuestro análisis: desaparición forzada, desplazamiento, homicidio, reclutamiento de menores de niños, niñas y adolescentes y secuestro. Con esa información procedimos a verificar si dos o más registros correspondían a la misma persona. Es decir, hicimos la deduplicación para evitar conteos múltiples. El resultado de ese proceso fue la base de datos integrada, que tiene 8.775.884 personas únicas.
- ¿Las fuentes de información integradas contienen todos los hechos de violencia?
No. El proyecto se encuentra centrado en cinco hechos de violencia: desaparición forzada, desplazamiento, homicidio, reclutamiento ilícito y secuestro.
- ¿Qué método usaron para hacer la vinculación de registros?
En el proyecto utilizamos 112 bases de datos, pero dado que una misma víctima puede estar registrada en más de una de ellas o incluso al interior de una misma fuente de datos, es necesario hacer una vinculación de los registros. A este proceso también se le conoce como “deduplicación” y consiste en dejar un solo registro de cada víctima para evitar conteos múltiples, identificando en cada una de ellas las fuentes de información de procedencia.Dado que tenemos trillones de posibles pares de registros, no es posible hacer la verificación a mano. Necesitamos entonces de la ayuda de la inteligencia artificial para esto. En específico, utilizamos el “aprendizaje automático”, que consiste en que el modelo aprende con base en ejemplos que le da una persona experta. En el caso del proyecto, a ella se le conoce como “oráculo” y ha dedicado su carrera a identificar pares de registros en distintos idiomas.Por ejemplo, para el oráculo es claro que Juan Pérez, asesinado el 1 de septiembre de 2020 según la base A es la misma víctima que Juano Peres, asesinado el 1 de septiembre de 2020 según la base B. El oráculo usa su intuición para establecer si este par de registros se refiere o no a la misma persona: por su similitud fonética o por otros criterios. Es necesario tener en cuenta que no siempre el nombre es suficiente para definir si dos personas son la misma o no. Por ejemplo, hay muchos casos en los que dos personas distintas tienen el mismo nombre. El oráculo es capaz de identificar si son dos personas distintas utilizando su intuición, comparando por ejemplo la fecha o el lugar de los hechos.Entonces, la persona experta analiza una parte de los registros y clasifica a los pares de registros en tres grupos: los que dadas sus condiciones compartidas (documentos de identificación, nombres, fechas, etc) obedecen con seguridad a la misma víctima; los que con seguridad no son la misma víctima; y los que no tiene certeza si son o no una misma víctima.La lógica que usa el oráculo para definir si dos registros corresponden o no a la misma persona fue traducida a más de 60 criterios como similitud fonética, diferencias entre las fechas de hechos victimizantes, coincidencias de los municipios o departamento, nombres de la víctima en distinto orden, entre otras, para definir si los pares son o no los mismos. A partir de estos criterios y de los 2.799.671 de pares de registros analizados por el oráculo, se hizo el entrenamiento del modelo con el objetivo de que aprenda la intuición humana e imite las decisiones tomadas por el oráculo.
- ¿Cómo sabemos que las decisiones del oráculo fueron correctas?
Una posible preocupación sería que los datos de entrenamiento estén equivocados. Para probar esto le pedimos en diciembre de 2021 a cinco integrantes del Grupo de Análisis de la Información en la Jurisdicción Especial para la Paz que hicieran el ejercicio del oráculo. Los integrantes analizaron 230.582, 185.187, 409.301, 197.983 y 354.279, pares de registros, respectivamente. Las decisiones tomadas por cada uno de ellos fueron comparadas con la asignación que realizó el oráculo. Los resultados mostraron que el acuerdo intersubjetivo, es decir qué tanto coincidieron con el oráculo, fue superior a 0,9 en cuatro de los casos, mientras que en el quinto caso fue de 0,76. Al analizar los registros en los que había diferencias, se encontró que el oráculo había identificado a pares de personas que los analistas no. Los analistas reconocieron que en estos casos sí se trataría de la misma persona.
- ¿Todas las fuentes de información tienen las características de las víctimas como edad, sexo, etnia o presunto responsable del hecho victimizante, completas?
No. Al hacer la vinculación de registros evidenciamos que no todas las víctimas tienen los campos completos. A este vacío de información se le conoce como “campos faltantes” y se limita a los datos registrados. Todas las bases de datos cuentan con distintos campos: algunos están relacionados con el hecho (como el año, municipio, departamento y perpetrador), mientras que otros con las personas (nombre, apellido, edad, sexo y etnia, entre otros). Sin embargo, cuando las organizaciones o instituciones documentan los hechos victimizantes, no siempre tienen la información completa y es normal que algunos campos queden vacíos para algunos registros. Hay muchas situaciones en las que esto puede ocurrir. Por ejemplo, puede suceder que se tenga registro de la persona, pero no se sepa el día exacto en el que ocurrió el hecho; o tal vez se tiene el nombre y apellido, pero no la cédula; mientras que algunas ocasiones no se conoce la etnia; entre otras. Además de que el campo esté vacío, puede suceder que tenga información incorrecta, como un error de digitación de la cédula o un error ortográfico en el nombre o apellido.Los campos que dejamos para cada una de las bases de datos integradas de los cinco hechos victimizantes son: sexo, etnia, edad, perpetrador y municipio. Sin embargo, quisimos aprovechar la información de la Fiscalía General de la Nación, del Instituto Nacional de Medicina Legal y Ciencias Forenses y de la Policía Nacional, que no se limitan a documentar víctimas del conflicto armado. A este tipo de bases las denominamos como “no especializadas en el conflicto armado” e implican que hay dos variables más: “pertenece al conflicto” y “es desaparición forzada”.
- ¿Por qué no trabajar sólo con los registros que tienen la información completa?
Las variables con campos faltantes son: sexo, etnia, edad, perpetrador y municipio, pertenece al conflicto y es desaparición forzada. En estadística al hecho de “completar” los campos faltantes se le conoce como “imputación”. Nos referiremos a “imputación estadística” para evitar confusiones con términos jurídicos.Existen distintas estrategias para hacer la imputación estadística. Una posible solución para no tener que lidiar con ella sería eliminar los registros que no tienen la información completa. Sin embargo, esto tiene al menos dos problemas.Primero, significaría asumir que los casos sin información se parecen en sus características a los que sí tienen información. Podemos pensar las consecuencias de esto con variables como el departamento y el hecho victimizante de homicidio. Este supuesto implicaría que las víctimas de homicidio sobre las que no se sabe el departamento donde ocurrieron los hechos tienen características similares a las que sí se sabe. Esto no es necesariamente cierto, pues puede ocurrir que por distintos motivos las personas en un departamento sean más reportadas que otras.Segundo, implicaría perder un alto porcentaje de la información disponible, especialmente para homicidio y desaparición forzada, dado el alto porcentaje de registros sin presunto responsable que hay en las bases de datos.Otra solución podría ser mantener los registros, pero excluir aquellos que no tengan la información completa para un análisis particular. Sin embargo, esto desconocería que es posible que los registros con campos faltantes tuvieran información distinta. Por ejemplo, si los presuntos responsables de los campos desconocidos fueran distintos a los conocidos, la historia que conoceríamos del conflicto sería distinta. Se hace necesario entonces imputar estadísticamente.
- ¿Cómo se puede completar la información faltante?
Las variables con campos faltantes son: sexo, etnia, edad, perpetrador y municipio, pertenece al conflicto y es desaparición forzada. En estadística al hecho de “completar” los campos faltantes se le conoce como “imputación”. Nos referiremos a “imputación estadística” para evitar confusiones con términos jurídicos.Podría pensarse que los valores faltantes de una variable siguen un patrón similar a los valores observados de la variable condicionada a todos los valores observados. Es decir, suponer que un registro que no tiene información en un campo es probablemente similar a un registro parecido a él en las demás características. A eso se le conoce como “valores faltantes aleatorios”. Esta es una suposición bastante plausible, que indicaría que los registros similares en otras variables se parecen entre sí en el valor que deban tomar en el campo faltante.Lo anterior implicaría imputar estadísticamente los campos faltantes únicamente con las variables disponibles. Por ejemplo, implicaría conocer el sexo con base en el departamento, edad, año y etnia de la víctima. Esto resultaría complejo para el modelo, por lo que creamos “variables de soporte”.En las bases originales hay mucha más información. Algunas bases documentan, por ejemplo, la profesión de la víctima. Otras el arma homicida o la vereda exacta. Y además, muchas tienen campos con texto en los que describen los hechos. Toda esta información le ayudaría muchísimo al modelo a hacer la imputación estadística. Si él pudiera conocer toda la información que hay de un mismo registro, seguro tomaría mejores decisiones. Las variables de soporte son la combinación de todos los valores de un registro en una sola secuencia vinculada a las variables que queremos imputar utilizando modelos de inteligencia artificial.Entonces, para la imputación estadística de campos faltantes utilizamos un método conocido como “imputación múltiple” con una “especificación completamente condicionada”. Este método comienza completando los valores faltantes por algún valor. Luego, el valor para cada variable se predice usando todas las otras columnas. El ejercicio de imputación estadística de datos faltantes es secuencial, pues se completan todos los campos faltantes de todas las variables. Al proceso de predecir y completar cada variable se le conoce como una réplica. Cada una de estas réplicas tiene un componente aleatorio para ayudar al modelo a computar. En este caso, el donante del que se toma el valor. Por lo tanto, cada vez que se realiza una réplica el resultado será un poco distinto, reflejando la incertidumbre. Entonces, se realiza el ejercicio más de una vez. En específico, lo hicimos 10 veces.
- Si hay 10 réplicas de la imputación estadística ¿cómo se combinan sus resultados?
Utilizamos las reglas de Rubin para hacer esta combinación. Estas reglas fueron desarrolladas en 1970 y formalizadas en 1987 en un libro por Donald Rubin y han sido ampliamente usadas para agrupar estimaciones a partir de los resultados de múltiples imputaciones sobre un mismo conjunto de datos.
- ¿Al completar la información de las características de las víctimas y unir fuentes corrigiendo la duplicidad de registro, ya contamos con el universo de víctimas?
No. Puede haber víctimas que no están registradas en ninguna base de datos. Por ejemplo, porque ella o sus familiares tienen miedo de hacer la denuncia. También podría ser que no haya registro del hecho porque no se conozca la suerte o el paradero de la víctima. Puede ocurrir que haya habido algunas víctimas en lugares lejanos, a los que no llega ninguna organización a hacer registro. A este vacío de información se le conoce como “subregistro” y se puede corregir mediante el uso de un método estadístico conocido como “estimación por sistemas múltiples”.
- ¿Cómo se llega al número de víctimas del conflicto armado?
No hay un único número de víctimas del conflicto armado. Como es posible que haya víctimas que nunca fueron registradas, no podemos tener certeza de un único número. Es decir, hay incertidumbre. A la incertidumbre en estadística se le llama “varianza” e implica que las estimaciones tienen un rango de posibles valores.A las estimaciones de víctimas del conflicto llegamos usando un método conocido como “estimación por sistemas múltiples”, que es una clase de modelos estadísticos que se utiliza para estudiar poblaciones humanas y animales desde inicios de la década de 1780.La idea detrás de este método es la siguiente: Imagine dos cuartos oscuros. Queremos saber sus tamaños, pero no podemos ver dentro de ellos y la única herramienta que tenemos para explorar los tamaños es un puñado de pelotas de goma. Las pelotas de goma no hacen ningún sonido cuando se estrellan con las paredes, el techo o el piso, pero hacen un pequeño ruido (click) cuando se estrellan entre ellas. Lanzamos las pelotas de goma en la primera habitación y escuchamos muchos clicks seguidos. Tomamos nuevamente las pelotas y las lanzamos en la segunda habitación con la misma fuerza. Ahora escuchamos clicks pero con menos frecuencia. Concluiríamos que la segunda habitación es más grande porque las pelotas de goma se dispersan más y por lo tanto se estrellan con menor frecuencia.En el lenguaje de datos, el tamaño del “cuarto” es el tamaño de la población de víctimas de un tipo de hecho que queremos estimar y estamos “lanzando” las fuentes a la población de víctimas. Cuando dos o más de las fuentes documentan a la misma víctima es como si se “estrellaran” haciendo un click. Utilizamos estos patrones de documentación para estimar el tamaño de la población total de víctimas de un hecho específico, incluso las que nunca fueron documentadas en nuestras fuentes (el subregistro).
- ¿Qué certeza se tiene frente al número de víctimas estimadas en el conflicto armado?
Una estimación parte de información parcial de la realidad y tiene un grado de incertidumbre (o “varianza” o “margen de error” en términos estadísticos) ¿Qué significa “incertidumbre” en el contexto de la estadística? Significa que la estimación no busca un único número sino un rango que incluya la verdad. La incertidumbre permite conocer todos los escenarios posibles con un grado de certeza. Muchas veces las personas desconfían de un rango por no responder a la pregunta de cuál es la cifra. Sin embargo, esta desconfianza desconoce que, si se utilizara estadística descriptiva solo con los datos observados, no se estaría conociendo la verdad sino lo que ha sido documentado. Entonces, no habría varianza, pues hay certeza absoluta de qué es lo que se documentó. Sin embargo, existiría un sesgo inmesurable: lo que se documentó no refleja la realidad, pero no habría forma de calcular qué tan distante es lo ocurrido en el conflicto de lo documentado.En cambio, gracias a las estimaciones es posible reducir la incertidumbre de cuántas víctimas quedaron por fuera de una magnitud desconocida a un rango medible e interpretable. Este rango nos permite conocer patrones y tendencias y tiene una característica fundamental: si bien todos los valores del rango son posibles, los valores cercanos al centro son más probables que los de los extremos, característica que se conoce como “la forma o estructura de la incertidumbre”. Por eso, en el Informe Final se presentan las medias de las estimaciones.
- ¿Cómo se interpretan los resultados de la estimación?
Las estimaciones que presentamos tienen un intervalo de credibilidad del 95%. Además, las estimaciones tienen una característica a la que se le conoce como “forma o estructura de la incertidumbre”, que consiste en que los valores cercanos al promedio son más probables que los de los extremos. Entonces, aunque cualquiera de los valores del rango es posible, es más probable que el valor verdadero sea la media.
- ¿El proyecto da respuesta a todas las preguntas sobre las víctimas del conflicto armado?
No. El proyecto se limitó a cinco hechos victimizantes: desapariciones forzadas, desplazamiento forzadp, homicidios, reclutamiento ilícito y secuestro. Además, hay una serie de limitaciones. Por ejemplo, podemos hacer análisis por sexo, etnia y edad de la víctima, pero no por otras características.
- ¿Si se utiliza otro modelo pueden obtenerse resultados distintos?
Sí. Al igual que en cualquier proyecto de investigación, fue necesario tomar una serie de decisiones, a medida que íbamos tomando una, se abrían posibles caminos que llevarían a otros resultados. En el “Anexo proyecto JEP-CEV-HRDAG” se explican en detalle los otros posibles caminos, pero creemos que tomamos las mejores decisiones basadas en métodos científicos y en el conocimiento de personas expertas en el conflicto armado.
- ¿Es posible distinguir entre combatientes y civiles?
No con los datos del proyecto. Dado que muy pocas de las fuentes de información tenían información sobre si la víctima era civil o combatiente, las únicas características por las que se puede distinguir a las víctimas es por sexo, etnia y edad de la víctima. También podemos hacer análisis por municipio de ocurrencia del hecho victimizante y el presunto responsable.