Preguntas frecuentes sobre el proyecto JEP-CEV-HRDAG de integración de datos y estimación estadística
- ¿Hay una fuente de información única sobre las víctimas del conflicto armado en Colombia?
No. Colombia cuenta con un amplio proceso de documentación de víctimas del conflicto armado. Cientos de entidades, organizaciones de víctimas y organizaciones de la sociedad civil han focalizado sus esfuerzos en registrar la información. Sin embargo, cada entidad u organización desarrolla este proceso con las limitaciones propias de capacidades técnicas, logísticas, sociales y de misionalidad, lo que conduce a que ninguna entidad ni organización logre documentar el universo completo de víctimas. Esto se debe a que les es imposible llegar a cada rincón del país, conocer qué fue exactamente lo que pasó y quién era la víctima. De hecho, si se comparan las dos bases de datos principales (el Registro Único de Víctimas de la Unidad Administrativa Especial para la Atención y Reparación Integral a las Víctimas y el Observatorio de Memoria y Conflicto del Centro Nacional de Memoria Histórica) se encuentran grandes diferencias. No solo por la magnitud, sino también por las definiciones que utilizan, los períodos y regiones que cubrieron.De hecho, en el proyecto incluímos 112 bases de datos. Por un lado, instituciones del Estado, como el Centro Nacional de Memoria Histórica, el Instituto Colombiano de Bienestar Familiar, la Agencia para la Reincorporación y la Normalización; el Instituto Nacional de Medicina Legal y Ciencias Forenses; la Jurisdicción Especial para la Paz; la Procuraduría General de la Nación; la Policía Nacional; el Registro Único de Víctimas; entre otras. Por otro lado, organizaciones de la sociedad civil, como la Asociación Nacional de Usuarios Campesinos, la Coordinación Colombia Europa Estados Unidos; el Instituto de Estudios para el Desarrollo y la Paz; la Organización Nacional Indígena de Colombia; País Libre, entre otras.
- ¿Por qué no utilizar solo una base de datos de las que ya existen?
Todas las bases de datos que documentan violaciones a derechos humanos, incluso la que tenga más registros, tienen dos tipos de vacíos de información: campos faltantes y registros faltantes o subregistro. A continuación explicamos cada uno de ellos.El primer tipo de vacío de información son los campos faltantes y se limita a los datos registrados. Todas las bases de datos cuentan con distintos campos: algunos están relacionados con el hecho (como el año, municipio, departamento y perpetrador), mientras que otros están relacionados con las personas (nombre, apellido, edad, sexo y etnia, entre otros). Sin embargo, cuando las organizaciones o instituciones documentan los hechos victimizantes, no siempre tienen la información completa y es normal que algunos campos queden vacíos para algunos registros. Hay muchas situaciones en las que esto puede ocurrir. Por ejemplo, puede suceder que se tenga registro de la persona, pero no se sepa el día exacto en el que ocurrió el hecho; o tal vez se tiene el nombre y apellido, pero no la cédula; mientras que en algunas ocasiones no se conoce la etnia; entre otras. Además de que el campo esté vacío, puede suceder que tenga información incorrecta, como un error de digitación de la cédula o un error ortográfico en el nombre o apellido.El segundo tipo de vacío de información es el subregistro y va más allá de los datos registrados. El subregistro se explica porque hay víctimas que no están documentadas, lo que puede ocurrir por distintos motivos. Por ejemplo, puede deberse a que la víctima o sus familiares tengan miedo de hacer la denuncia y opten por el silencio; también puede ocurrir que el hecho victimizante haya tenido lugar en un sitio muy lejano, al queno lleguen las organizaciones o instituciones; podría ser porque aunque fueron víctimas dentro del marco del conflicto armado, se registró una violación distinta a la que sufrieron; sus cuerpos fueron encontrados, pero no han sido identificados; o sus cuerpos fueron tirados a ríos o fosas comunes y no hay ningún registro. A diferencia del primer tipo de vacío de información, en este caso no se conoce cuántos registros faltan.Para corregir los dos tipos de vacío de información fue necesario utilizar métodos de imputación estadística para completar campos faltantes y métodos de estimación del subregistro por medio de captura-recaptura a partir de la integración de distintas fuentes de información.
- ¿Qué fuentes de información se usaron en el proyecto?
Usamos 112 bases de datos aportadas por 44 instituciones del Estado, organizaciones de víctimas y organizaciones de la sociedad civil. La información proviene de instituciones del Estado, como el Centro Nacional de Memoria Histórica, el Instituto Colombiano de Bienestar Familiar, la Agencia para la Reincorporación y la Normalización; el Instituto Nacional de Medicina Legal y Ciencias Forenses; la Jurisdicción Especial para la Paz; la Procuraduría General de la Nación; la Policía Nacional; el Registro Único de Víctimas; entre otras; y organizaciones de la sociedad civil, como la Asociación Nacional de Usuarios Campesinos, la Coordinación Colombia Europa Estados Unidos; el Instituto de Estudios para el Desarrollo y la Paz; la Organización Nacional Indígena de Colombia; País Libre, entre otras.
- ¿Quiénes participaron en el proyecto?
El proyecto fue desarrollado por la Jurisdicción Especial para la Paz (JEP), la Comisión para el Esclarecimiento de la Verdad, Justicia, Reparación y No Repetición (CEV) y el Grupo de Análisis de Datos en Derechos Humanos (HRDAG).
- ¿Existe un documento que detalle la metodología del proyecto?
Sí. El “Anexo proyecto JEP-CEV-HRDAG” presenta los métodos utilizados en el proyecto.
- ¿Si unimos todas las bases de datos estaríamos contando más víctimas cuando alguna es registrada en varias fuentes de información?
Depende. La unión directa de todas las fuentes sin procesos exhaustivos de preparación de la información e identificación de víctimas únicas puede producir información errónea al no prevenir ese doble conteo. Por ello, para realizar la integración de información de forma correcta, en el proyecto utilizamos procedimientos de vinculación de los registros, también conocidos como “deduplicación”. Estos procedimientos consisten en dejar un solo registro de cada víctima para evitar dobles conteos, identificando en cada una de ellas las fuentes de información de procedencia a través de métodos de aprendizaje automático.
- ¿No pueden unirse los registros simplemente por cédula?
No. No todos los registros tienen la cédula y, en caso de que la tuvieran, son comunes los errores de digitación. Por eso fue necesario usar métodos de aprendizaje automático para hacer la deduplicación.
- ¿Qué fuentes de información unieron?
Integramos 112 bases de datos aportadas por 44 instituciones del Estado, organizaciones de víctimas y organizaciones de la sociedad civil. La información proviene de instituciones del Estado, como el Centro Nacional de Memoria Histórica, Instituto Colombiano de Bienestar Familiar, la Agencia para la Reincorporación y la Normalización; el Instituto Nacional de Medicina Legal y Ciencias Forenses; la Jurisdicción Especial para la Paz; la Procuraduría General de la Nación; la Policía Nacional; el Registro Único de Víctimas; entre otras; y de organizaciones de la sociedad civil, como la Asociación Nacional de Usuarios Campesinos, la Coordinación Colombia Europa Estados Unidos; el Instituto de Estudios para el Desarrollo y la Paz; la Organización Nacional Indígena de Colombia; País Libre, entre otras.El resultado de la primera integración fueron 26 millones de registros. De estos, 12,8 millones son registros de personas que contaban por lo menos con datos de nombre, apellido, año y departamento y corresponden a los cinco hechos de violencia que consideramos en nuestro análisis: desaparición forzada, desplazamiento, homicidio, reclutamiento de menores de niños, niñas y adolescentes y secuestro. Con esa información procedimos a verificar si dos o más registros correspondían a la misma persona. Es decir, hicimos la deduplicación para evitar conteos múltiples. El resultado de ese proceso fue la base de datos integrada, que tiene 8.775.884 personas únicas.
- ¿Las fuentes de información integradas contienen todos los hechos de violencia?
No. El proyecto se encuentra centrado en cinco hechos de violencia: desaparición forzada, desplazamiento, homicidio, reclutamiento ilícito y secuestro.
- ¿Qué método usaron para hacer la vinculación de registros?
Utilizamos 112 bases de datos en el proyecto. Dado que la misma víctima puede estar registrada en más de una base de datos o varias veces dentro de la misma base de datos, es necesario hacer una vinculación de los registros. A este proceso también se conoce como “deduplicación” y da como resultado un registro único para cada víctima. Esto evita contabilizar a una víctima más de una vez, así como identificar cada fuente que documentó a cada víctima. Dado que tenemos trillones de posibles pares de registros, no es posible vincular los registros a mano. En su lugar, utilizamos un enfoque de aprendizaje automático semisupervisado, en el que el modelo aprende a vincular registros basándose en ejemplos proporcionados por un experto que revisa manualmente los registros. En el caso del proyecto, la persona experta es conocida como un “oráculo”. El oráculo de este proyecto fue Michelle Dukich y ha dedicado su carrera a identificar pares de registros en diferentes idiomas. Por ejemplo, el oráculo determina que Juan Pérez, asesinado el 1 de septiembre de 2020 según la base de datos A es la misma víctima que Juano Peres, asesinado el 1 de septiembre de 2020 según la base de datos B. Para ello, el oráculo utiliza su intuición para establecer si o no este par de registros se refiere a la misma persona: por su similitud fonética u otro criterio. El nombre por sí solo no siempre es suficiente para determinar si dos registros se refieren a la misma víctima. Por ejemplo, hay muchos casos en los que dos personas diferentes tienen el mismo nombre. El oráculo es capaz de identificar que se trata de dos personas diferentes utilizando su intuición, comparando, por ejemplo, la fecha o el lugar de los hechos. Luego, el oráculo analiza una parte de los registros y clasifica los pares de registros en dos grupos: i) dadas sus condiciones compartidas (números de identificación, nombres, fechas, etc.) seguramente son la misma víctima; ii) los que seguramente no son la misma víctima. La lógica utilizada por el oráculo para definir si dos registros corresponden o no a la misma persona se tradujo en más de 60 criterios como similitud fonética, diferencias entre las fechas de hechos violentos, coincidencias de municipios o departamentos, nombres de la víctima en un orden diferente, entre otros, para definir si los pares de registros se refieren o no a la misma víctima. A partir de estos criterios y de los 2.799.671 de pares de registros analizados por el oráculo, se hizo el entrenamiento del modelo con el objetivo de que aprenda la intuición humana e imite las decisiones tomadas por el oráculo.
- ¿Cómo sabemos que las decisiones del oráculo fueron correctas?
Una posible preocupación sería que los datos de entrenamiento estén equivocados. Para probar esto le pedimos en diciembre de 2021 a cinco integrantes del Grupo de Análisis de la Información en la Jurisdicción Especial para la Paz que hicieran el ejercicio del oráculo. Los integrantes analizaron 230.582, 185.187, 409.301, 197.983 y 354.279, pares de registros, respectivamente. Las decisiones tomadas por cada uno de ellos fueron comparadas con la asignación que realizó el oráculo. Los resultados mostraron que el acuerdo intersubjetivo, es decir qué tanto coincidieron con el oráculo, fue superior a 0,9 en cuatro de los casos, mientras que en el quinto caso fue de 0,76. Al analizar los registros en los que había diferencias, se encontró que el oráculo había identificado a pares de personas que los analistas no. Los analistas reconocieron que en estos casos sí se trataría de la misma persona.
- ¿Todas las fuentes de información tienen las características de las víctimas como edad, sexo, etnia o presunto responsable del hecho victimizante, completas?
No. Al hacer la vinculación de registros evidenciamos que no todas las víctimas tienen los campos completos. A este vacío de información se le conoce como “campos faltantes” y se limita a los datos registrados. Todas las bases de datos cuentan con distintos campos: algunos están relacionados con el hecho (como el año, municipio, departamento y perpetrador), mientras que otros con las personas (nombre, apellido, edad, sexo y etnia, entre otros). Sin embargo, cuando las organizaciones o instituciones documentan los hechos victimizantes, no siempre tienen la información completa y es normal que algunos campos queden vacíos para algunos registros. Hay muchas situaciones en las que esto puede ocurrir. Por ejemplo, puede suceder que se tenga registro de la persona, pero no se sepa el día exacto en el que ocurrió el hecho; o tal vez se tiene el nombre y apellido, pero no la cédula; mientras que algunas ocasiones no se conoce la etnia; entre otras. Además de que el campo esté vacío, puede suceder que tenga información incorrecta, como un error de digitación de la cédula o un error ortográfico en el nombre o apellido.Los campos que dejamos para cada una de las bases de datos integradas de los cinco hechos victimizantes son: sexo, etnia, edad, perpetrador y municipio. Además de que el campo esté vacío, puede suceder que tenga información incorrecta, como un error de digitación de la cédula o un error ortográfico en el nombre o apellido.Los campos que dejamos para cada una de las bases de datos integradas de los cinco hechos victimizantes son: sexo, etnia, edad, perpetrador y municipio.
- ¿Por qué no trabajar sólo con los registros que tienen la información completa?
Las variables con campos faltantes son: sexo, etnia, edad, perpetrador y municipio, pertenece al conflicto y es desaparición forzada. En estadística al hecho de “completar” los campos faltantes se le conoce como “imputación”. Nos referiremos a “imputación estadística” para evitar confusiones con términos jurídicos.Existen distintas estrategias para hacer la imputación estadística. Una posible solución para no tener que lidiar con ella sería eliminar los registros que no tienen la información completa. Sin embargo, esto tiene al menos dos problemas.Primero, significaría asumir que los casos sin información se parecen en sus características a los que sí tienen información. Podemos pensar las consecuencias de esto con variables como el departamento y el hecho victimizante de homicidio. Este supuesto implicaría que las víctimas de homicidio sobre las que no se sabe el departamento donde ocurrieron los hechos tienen características similares a las que sí se sabe. Esto no es necesariamente cierto, pues puede ocurrir que por distintos motivos las personas en un departamento sean más reportadas que otras.Segundo, implicaría perder un alto porcentaje de la información disponible, especialmente para homicidio y desaparición forzada, dado el alto porcentaje de registros sin presunto responsable que hay en las bases de datos.Otra solución podría ser mantener los registros, pero excluir aquellos que no tengan la información completa para un análisis particular. Sin embargo, esto desconocería que es posible que los registros con campos faltantes tuvieran información distinta. Por ejemplo, si los presuntos responsables de los campos desconocidos fueran distintos a los conocidos, la historia que conoceríamos del conflicto sería distinta. Se hace necesario entonces imputar estadísticamente.
- ¿Cómo se puede completar la información faltante?
Las variables con campos faltantes son: sexo, etnia, edad, perpetrador y municipio, pertenece al conflicto y es desaparición forzada. En estadística al hecho de “completar” los campos faltantes se le conoce como “imputación”. Nos referiremos a “imputación estadística” para evitar confusiones con términos jurídicos.Podría pensarse que los valores faltantes de una variable siguen un patrón similar a los valores observados de la variable condicionada a todos los valores observados. Es decir, suponer que un registro que no tiene información en un campo es probablemente similar a un registro parecido a él en las demás características. A eso se le conoce como “valores faltantes aleatorios”. Esta es una suposición bastante plausible, que indicaría que los registros similares en otras variables se parecen entre sí en el valor que deban tomar en el campo faltante.Lo anterior implicaría imputar estadísticamente los campos faltantes únicamente con las variables disponibles. Por ejemplo, implicaría conocer el sexo con base en el departamento, edad, año y etnia de la víctima. Esto resultaría complejo para el modelo, por lo que creamos “variables de soporte”.En las bases originales hay mucha más información, que no pudo ser estandarizada para la vinculación de registros. Algunas bases documentan, por ejemplo, la profesión de la víctima. Otras el arma homicida o la vereda exacta. Y además, muchas tienen campos con texto en los que describen los hechos. Toda esta información le ayudaría muchísimo al modelo a hacer la imputación estadística. Si él pudiera conocer toda la información que hay de un mismo registro, seguro tomaría mejores decisiones. Las variables de soporte tratan toda la información heterogénea contenida en los registros originales como una cadena de texto y utilizan una red neuronal para extraer información latente de los registros originales que se correlaciona con las variables que queremos imputar. Entonces, para la imputación estadística de campos faltantes utilizamos un método conocido como “imputación múltiple” con una “especificación completamente condicionada”. Este método comienza completando los valores faltantes por algún valor. Luego, el valor para cada variable se predice usando todas las otras columnas. El ejercicio de imputación estadística de datos faltantes es secuencial, pues se completan todos los campos faltantes de todas las variables. Al proceso de predecir y completar cada variable se le conoce como una réplica. Cada una de estas réplicas tiene un componente aleatorio para ayudar al modelo a computar. En este caso, el donante del que se toma el valor. Por lo tanto, cada vez que se realiza una réplica el resultado será un poco distinto, reflejando la incertidumbre. Entonces, se realiza el ejercicio más de una vez, con distintos órdenes de la columna inicial. En específico, lo hicimos 10 veces.
- Si hay 10 réplicas de la imputación estadística ¿cómo se combinan sus resultados?
Usamos el enfoque estándar para combinar resultados de conjuntos de datos de imputación múltiple que suponen que los resultados se distribuyen normalmente y luego usamos las leyes de la expectativa total (law of total expectation en inglés) y la varianza total para derivar una estimación puntual de la media y el intervalo creíble aproximado del 95 %. Este enfoque se describe en detalle en la Sección 18.2 del libro Bayesian Data Analysis.Los resultados de las estimaciones de múltiples sistemas generalmente no se distribuyen normalmente, pero la aplicación de una transformación logarítmica hace que las distribuciones posteriores sean aproximadamente normales.
- ¿Al completar la información de las características de las víctimas y unir fuentes corrigiendo la duplicidad de registro, ya contamos con el universo de víctimas?
No. Puede haber víctimas que no están registradas en ninguna base de datos. Por ejemplo, porque ella o sus familiares tienen miedo de hacer la denuncia. También podría ser que no haya registro del hecho porque no se conozca la suerte o el paradero de la víctima. Puede ocurrir que haya habido algunas víctimas en lugares lejanos, a los que no llega ninguna organización a hacer registro. A este vacío de información se le conoce como “subregistro” y se puede corregir mediante el uso de un método estadístico conocido como “estimación por sistemas múltiples”.
- ¿Cómo se llega al número de víctimas del conflicto armado?
No hay un único número de víctimas del conflicto armado. Como es posible que haya víctimas que nunca fueron registradas, no podemos tener certeza de un único número. Es decir, hay incertidumbre. A la incertidumbre en estadística se le llama “varianza” e implica que las estimaciones tienen un rango de posibles valores.A las estimaciones de víctimas del conflicto llegamos usando un método conocido como “estimación por sistemas múltiples”, que es una clase de modelos estadísticos que se utiliza para estudiar poblaciones humanas y animales desde inicios de la década de 1780.La idea detrás de este método es la siguiente: Imagine dos cuartos oscuros. Queremos saber sus tamaños, pero no podemos ver dentro de ellos y la única herramienta que tenemos para explorar los tamaños es un puñado de pelotas de goma. Las pelotas de goma no hacen ningún sonido cuando se estrellan con las paredes, el techo o el piso, pero hacen un pequeño ruido (click) cuando se estrellan entre ellas. Lanzamos las pelotas de goma en la primera habitación y escuchamos muchos clicks seguidos. Tomamos nuevamente las pelotas y las lanzamos en la segunda habitación con la misma fuerza. Ahora escuchamos clicks pero con menos frecuencia. Concluiríamos que la segunda habitación es más grande porque las pelotas de goma se dispersan más y por lo tanto se estrellan con menor frecuencia.En el lenguaje de datos, el tamaño del “cuarto” es el tamaño de la población de víctimas de un tipo de hecho que queremos estimar y estamos “lanzando” las fuentes a la población de víctimas. Cuando dos o más de las fuentes documentan a la misma víctima es como si se “estrellaran” haciendo un click. Utilizamos estos patrones de documentación para estimar el tamaño de la población total de víctimas de un hecho específico, incluso las que nunca fueron documentadas en nuestras fuentes (el subregistro).
- ¿Qué certeza se tiene frente al número de víctimas estimadas en el conflicto armado?
Una estimación parte de información parcial de la realidad y tiene un grado de incertidumbre (o “varianza” o “margen de error” en términos estadísticos) ¿Qué significa “incertidumbre” en el contexto de la estadística? Significa que la estimación no busca un único número sino un rango que incluya la verdad. La incertidumbre permite conocer todos los escenarios posibles con un grado de certeza. Muchas veces las personas desconfían de un rango por no responder a la pregunta de cuál es la cifra. Sin embargo, esta desconfianza desconoce que, si se utilizara estadística descriptiva solo con los datos observados, no se estaría conociendo la verdad sino lo que ha sido documentado. Entonces, no habría varianza, pues hay certeza absoluta de qué es lo que se documentó. Sin embargo, existiría un sesgo inmesurable: lo que se documentó no refleja la realidad, pero no habría forma de calcular qué tan distante es lo ocurrido en el conflicto de lo documentado.En cambio, gracias a las estimaciones es posible reducir la incertidumbre de cuántas víctimas quedaron por fuera de una magnitud desconocida a un rango medible e interpretable. Este rango nos permite conocer patrones y tendencias y tiene una característica fundamental: si bien todos los valores del rango son posibles, los valores cercanos a la media son más probables que los de los extremos, característica que se conoce como “la forma o estructura de la incertidumbre”. Por eso, en el capítulo “No Matarás” del Informe Final se presentan las medias de las estimaciones.
- ¿Cómo se interpretan los resultados de la estimación?
Las estimaciones que presentamos tienen un intervalo de credibilidad del 95%. Además, las estimaciones tienen una característica a la que se le conoce como “forma o estructura de la incertidumbre”, que consiste en que los valores cercanos al promedio son más probables que los de los extremos. Entonces, aunque cualquiera de los valores del rango es posible, es más probable que el valor verdadero sea la media.
- ¿El proyecto da respuesta a todas las preguntas sobre las víctimas del conflicto armado?
No. El proyecto se limitó a cinco hechos victimizantes: desapariciones forzadas, desplazamiento forzadp, homicidios, reclutamiento ilícito y secuestro. Además, hay una serie de limitaciones. Por ejemplo, podemos hacer análisis por sexo, etnia y edad de la víctima, pero no por otras características.
- ¿Si se utiliza otro modelo pueden obtenerse resultados distintos?
Sí. Al igual que en cualquier proyecto de investigación, fue necesario tomar una serie de decisiones, a medida que íbamos tomando una, se abrían posibles caminos que llevarían a otros resultados. En el “Anexo proyecto JEP-CEV-HRDAG” se explican en detalle los otros posibles caminos, pero creemos que tomamos las mejores decisiones basadas en métodos científicos y en el conocimiento de personas expertas en el conflicto armado.
- ¿Es posible distinguir entre combatientes y civiles?
No con los datos del proyecto. Dado que muy pocas de las fuentes de información tenían información sobre si la víctima era civil o combatiente, las únicas características por las que se puede distinguir a las víctimas es por sexo, etnia y edad de la víctima. También podemos hacer análisis por municipio de ocurrencia del hecho victimizante y el presunto responsable.
- ¿El proyecto incluye a fuentes de información oficiales como la Policía Nacional o Medicina Legal?
Sí. Inclumos información de la Fiscalía General de la Nación, del Instituto Nacional de Medicina Legal y Ciencias Forenses y de la Policía Nacional, que no se limitan a documentar víctimas del conflicto armado. A este tipo de bases las denominamos como “no especializadas en el conflicto armado” e implican que hay dos variables más: “pertenece al conflicto” y “es desaparición forzada”.