El registro y la medición de la criminalidad. El problema de los datos faltantes y el uso de la ciencia para producir estimaciones en relación con el homicidio en Colombia, demostrado a partir de un ejemplo: el departamento de Antioquia (2003-2011)*

Criminality registration and measurement. The problem of missing data, and the use of science to produce estimations relating to homicide in Colombia, as demonstrated with an example from one of its administrative and political divisions: the Department of Antioquia (2003-2011)

O registro e a medição da criminalidade. O problema dos dados faltantes e o uso da ciência para produzir estimativas com relação ao homicídio na Colômbia, demonstrado a partir de um exemplo: o departamento de Antioquia (2003-2011)

Patrick Ball**

Michael Reed H.***

*Una versión de este artículo también fue presentada al Instituto Nacional de Medicina Legal y Ciencias Forenses, e incluida en su publicación Forensis 2014: Datos para la vida, bajo el título "Cuentas y mediciones de la criminalidad y la violencia". Esta versión presenta datos nuevos relativos al departamento de Antioquia.

**Ph.D. en Sociología. Director of Research, Human Rights Data Analysis Group, San Francisco, CA, USA. pball@hrdag.org

***Juris Doctor, J.D. Researcher y Lecturer, Yale University, New Haven, CT, USA. michael.reedhurtado@yale.edu

Para citar este artículo / To reference this article / Para citar este artigo: Ball, P. & Reed, M. (2016). El registro y la medición de la criminalidad. El problema de los datos faltantes y el uso de la ciencia para producir estimaciones en relación con el homicidio en Colombia, demostrado a partir de un ejemplo: el departamento de Antioquia (2003-2011). Revista Criminalidad, 58 (1): 9-23.

Fecha de recepción: 2015/11/04 Fecha concepto evaluación: 2015/11/10 Fecha de aprobación: 2016/01/08


Resumen

La integridad del ciclo de políticas públicas depende de la calidad de la información disponible para tomar decisiones en cualquiera de las fases. De manera preocupante, este ciclo -especialmente en el campo de la política criminal- se aparta del análisis técnico, que debería basarse en prueba empírica y sustento teórico. Este artículo retoma ejes clásicos (pero olvidados) de la medición de la criminalidad, con el propósito de resaltar la función esencial de datos confiables en el ciclo de políticas públicas. Brinda un análisis del proceso de registro y medición del crimen, y destaca los problemas y límites de cualquier ejercicio de registro delictivo. Resalta la necesidad de examinar el universo de lo desconocido por los diversos proyectos de registro, y explica las herramientas que se utilizan para dar cuenta de datos faltantes. Con el fin de ilustrar el potencial de la aplicación de estas herramientas en Colombia, ilustra los resultados del registro integrado de homicidios en el departamento de Antioquia, en el período 2003-2011, según cinco proyectos de registro (incluyendo el de la Policía Nacional), y presenta una estimación probabilística de los homicidios, que incorpora el cálculo de los datos faltantes según un técnica que se denomina Estimación por Sistemas Múltiples (ESM).

Palabras clave: Medición de la criminalidad, tendencias del delito, estadística, datos cuantitativos referidos a la delincuencia, homicidio (fuente: Tesauro de política criminal latinoamericana - ILANUD).


Abstract

The integrity of the public policy cycle depends upon the quality of information available to make decisions in any of the relevant phases. In a disturbing manner, this cycle -and particularly in the field of criminal policy- diverges from the technical analysis that should be based on empiric proof and theoretical justification and support. This article retakes classical -though forgotten- axes of criminality measurement, for the purpose of stressing the essential function of reliable data in the public policy cycle. It offers an analysis of the registration and measurement process, and highlights both problems and limits involved in any crime registration exercise. It points out the need to examine the universe of what has been ignored in the diverse registration projects, and explains the tools used to account for the missing data. In order to illustrate the potential involved in the application of these tools in Colombia, it exemplifies the results found in the integrated homicide record keeper in one of the Colombian 32 administrative and political divisions: the Department of Antioquia, in the 2003-2011 period, pursuant to five registration projects (including that of the National Police); and it offers a probabilistic estimation of homicides incorporating the calculation of missing data, according to a technique known as the Multiple Systems Estimation (MSE).

Key words: Criminality measuring, crime tendencies, statistics, quantitative data concerning crime, homicide (Source: Tesauro de política criminal latinoamericana - ILANUD).


Resumo

A integridade do ciclo de políticas públicas depende da qualidade da informação disponível para fazer decisões em qualquer uma das fases. De maneira preocupante, este ciclo - especialmente no campo da política criminal - afasta-se da análise técnica, que teria que ser baseada no teste empírico e no apoio teórico. Este artigo retoma eixos clássico (mas esquecidos) da medição da criminalidade, a fim de enfatizar a função essencial de dados fiáveis no ciclo de políticas públicas. Oferece uma análise do processo do registo e medição do crime, e destaca os problemas e os limites de todo o exercício do registo criminal. Resalta a necessidade para examinar o universo do desconhecido pelos diversos projetos de registo, e explica as ferramentas que são usadas para apresentar os dados faltantes. A fim de ilustrar o potencial da aplicação destas ferramentas na Colômbia, ilustra os resultados do registro integrado dos homicídios no departamento de Antioquia, no período 2003-2011, de acordo com cinco projetos de registro (incluindo aquele da Polícias Nacional), e apresenta uma estimativa probabilística dos homicídios, que incorpora o cálculo dos dados faltantes de acordo com uma técnica chamada estimativa por múltiplos sistemas.

Palavras-chave: Medição da criminalidade, tendências do crime, estadísticas, dados quantitativos referidos à delinquência, homicídio (fonte: Tesauro de política criminal latinoamericana - ILANUD).


Introducción

La medición de los delitos (particularmente del homicidio) y el reporte oficial de cifras sobre su dinámica siempre son objeto de contención. Los datos son utilizados para brindar cuentas y hacer anuncios de incrementos o caídas en la incidencia de la delincuencia. Todo el trabajo técnico de registro y análisis queda supeditado a una declaración política. La mayor parte de la ciudadanía no se pregunta de dónde salen los datos ni cómo se producen las cuentas; toda la atención se concentra en la condena que acompaña el incremento o los elogios que van de la mano de un descenso en la incidencia de ciertas manifestaciones delictivas. Este proceso se repite en casi todas las jurisdicciones del planeta: los números se toman la agenda pública como señal de alabanza o alarma (política), y los complejos procesos que conducen al registro y medición del delito son ignorados.

La verdad sea dicha: ningún registro de criminalidad contiene un reflejo completo de la incidencia de las distintas conductas delictivas. Todos los proyectos de registro de datos son útiles e importantes, pero ninguno (oficial o no) logra contener todo lo que acontece. Todos estos son parciales, como resultado de datos faltantes, así como por la introducción de sesgos inherentes al diseño de cualquiera de los sistemas y de su operación. Estas aseveraciones no son un reproche a estos, son constataciones técnicas que se aplican a cualquier proyecto de registro que busca documentar diversas manifestaciones de la criminalidad.

Con el fin de ilustrar el punto de manera sencilla, se toma un ejemplo de la vida cotidiana que será comprendido por todos. ¿Consideren si el registro que mantiene la Policía (de cualquier país) de las infracciones de tránsito que detectan es un reflejo adecuado de todas las infracciones de tránsito que son cometidas en su respectiva jurisdicción? Obviamente, el policial se limita a aquellas infracciones que llevan a la intervención de esa autoridad (sea como resultado del contacto policivo o de la imposición de un parte). Esta es una primera limitación, obvia pero comúnmente ignorada: solo se puede registrar aquello que se detecta. Además, recuerden que la intervención de la Policía es objeto de direccionamiento: los agentes policiales concentran su intervención en lo que sus superiores ordenan. Aunque resulte obvio, los agentes de policía detectan lo que buscan, según sus órdenes. Si les piden que monten una operación para detectar excesos de velocidad, los agentes concentrarán su atención en esto y no observarán otro tipo de infracciones. Como es indiscutible, la suma de los eventos que son documentados representa una porción mínima del total de las infracciones que en realidad son cometidas; además, se concentran sobre cierto tipo de contravención, según las prioridades establecidas por los superiores. De este sencillo ejemplo se puede concluir que el reporte que se deriva del registro de las infracciones detectadas por la autoridad de tránsito no es una medida adecuada del total de las contravenciones cometidas. Desde finales del siglo XIX se sabe que los registros de la Policía son una fuente muy útil de información sobre la eficiencia y la acción policivas, pero una medida inadecuada del total de delitos (Morrison, 1897). Esta premisa irrefutable es comúnmente desconocida cuando se presentan los datos.

Quienes trabajan en el registro de datos sobre la criminalidad, o en la utilización de proyectos de registro sobre cualquier fenómeno social, deben operar bajo una premisa de parcialidad de los que utilizan (sea como resultado de datos faltantes, problemas de muestreo o en su captura, entre otros). Solo de esta manera se puede comprender el alcance de los datos, al reconocer lo que nos dicen estos y lo que no pueden decir.

No hay duda de que se pueden presentar diferencias en la calidad de los datos según los procedimientos aplicados, así como en la cobertura de distintos registros, pero la regla sigue siendo cierta para todos los proyectos: los eventos que no se logran observar son, de forma sistemática, diferentes de aquellos que se documentan. Esa diferencia se deriva de una decisión o un proceso, que hace que ciertos eventos sean observados mientras que otros permanezcan ocultos, lo que genera eventos visibles e invisibles.

Infortunadamente, la medición de la criminalidad es objeto de más debates políticos que discusiones técnicas. En estos, los datos sufren y las cuentas que se hacen no suelen ser técnicas. Los debates sobre política criminal suelen basarse en emociones, impulsos, especulaciones y miedos. Los datos se tornan más incidentales que esenciales. Los políticos sacan los datos de contexto y poco utilizan la prueba empírica o el sustento teórico para determinar la conveniencia de las medidas que promueven y adoptan para combatir las distintas manifestaciones del delito.

La integridad del ciclo de políticas públicas -diseño, implementación, monitoreo, evaluación y corrección- depende de la calidad de la información disponible para tomar decisiones en cualquiera de las fases. En un campo político contencioso -como es el de la criminalidad y, particularmente, el de la delincuencia violenta- la información se usa como un arma burda, más que como herramienta analítica. Existe una creciente brecha entre la proliferación de políticas públicas que responden a un clamor extendido por endurecer la respuesta al crimen, y la capacidad técnica de proponer y evaluar la procedencia de las políticas con base en evidencia. En Colombia, como en la gran mayoría de los países, los programas de prevención al delito, la función policial y el sistema de administración de justicia penal están bajo constante crítica y reforma. Sin embargo, ni las críticas ni las reformas se basan en pruebas con sustento técnico. De esta manera, se constata que la conducta de los hacedores de política se aleja de la deseada transparencia, y de los principios de eficiencia y eficacia que deben ordenar el ciclo de políticas públicas. Asimismo, los datos y su análisis no ocupan el lugar que deberían tener.

Este artículo retoma ejes clásicos (pero olvidados) de la medición de la criminalidad, con el fin de resaltar la función esencial de datos confiables en el ciclo de políticas públicas. Inicia esta exploración recordando el alcance de cualquier proyecto de registro y medición. En segundo lugar, se resaltan algunas pautas que rigen la medición y la producción de datos sobre la criminalidad. En esa sección se brindan algunas respuestas a las siguientes preguntas: qué miden los registros de datos y cómo lo hacen. En tercer lugar, se abordan las características genéricas de los distintos tipos de registros de criminalidad que existen en el mundo y se destacan algunos problemas que presentan sus datos. En esta sección se responde la eterna pregunta en cualquier realidad nacional: ¿quién tiene los mejores datos? En cuarto lugar, se examina el universo de lo desconocido por los proyectos de registro. Se aborda de manera somera la necesidad de dar cuenta de los datos faltantes. En la quinta sección se enuncia cómo la ciencia y la tecnología pueden complementar los registros sobre la criminalidad en Colombia para obtener el mejor uso posible de los datos disponibles y ofrecer, a los hacedores de política, información que mejor refleje la incidencia de ciertas manifestaciones de violencia en el país, en particular la letal. Y, finalmente, se ofrecen unas breves palabras de conclusión.

1. En busca de los datos perfectos...

La búsqueda de la medición total de todos los crímenes cometidos en el ámbito nacional, incluso de los delitos más evidentes (como el homicidio), es equiparable a la búsqueda de El Dorado. Aunque se crea en su existencia, su revelación no será posible.

Todos los proyectos de registro sobre el delito son el resultado de representaciones de un fenómeno que se observa, y están constreñidos por recursos y teñidos por sesgos (algunos personales, otros institucionales), tanto en el diseño como en la operación del proceso de registro. Los datos y las mediciones son representaciones de la realidad, construidas mediante un proceso humano deliberado y calculado, no su reflejo puro; se derivan de muestras incompletas y parciales, e incluyen múltiples fuentes de error (como resultado de datos inesperados, otros no deseados y, la gran mayoría, faltantes). Por lo general, las mediciones de la criminalidad tienden a subestimar el fenómeno que observan, suplantando el universo por una muestra de ese universo, más o menos englobante, de acuerdo con las capacidades del proyecto, pero siempre parcial y reflejando sesgos. Algunas porciones del universo suelen estar bien representadas, pero otras pueden permanecer completamente ocultas (invisibles).

Consideradas de manera aislada, cada una de las bases de datos (que resultan de los distintos proyectos) cuenta solo una parte de la realidad. Incluso, la integración (técnica) de todas las bases de datos continúa proporcionando una representación parcial de la realidad. El uso de modelos provenientes de la estadística matemática y de otros campos -incluyendo la demografía de censos humanos, el estudio estadístico del tamaño de la internet y la proyección del tamaño poblacional de fauna silvestre- permite la proyección de la porción de la realidad que no fue observada (estos son los eventos invisibles, que se traducen en datos faltantes)1.

En materia de criminalidad se han perfeccionado las herramientas en relación con algunas conductas, en particular los homicidios2. Así, como se verá más adelante, es posible lograr una aproximación técnica a la población total de homicidios, incluyendo todas las muertes que fueron observadas por cada uno de los registros disponibles, y aquellas que no fueron observadas y no quedaron registradas en ninguna base de datos, pero que, mediante cálculos probabilísticos verificables, se puede plantear que seguramente existieron.

Presentadas estas notas introductorias, a continuación sigue el examen de algunas pautas básicas que rigen el proceso de medición de los delitos.

2. Qué miden los registros y cómo lo hacen

Las mediciones que se formulan sobre la criminalidad no se hacen sobre la realidad, sino acerca de la porción de realidad que se logra observar. No es posible capturar como dato lo que no se observa; sin embargo, la no observación de los eventos no los hace menos reales. Recuerden el primer ejemplo relativo al total de las infracciones de tráfico cometidas, en comparación con aquellas que fueron detectadas por una autoridad de tránsito. Claramente, el hecho de que las infracciones no son detectadas por la autoridad no debe anular su existencia.

El registro de lo observado se hace según parámetros acordados; los datos son representaciones empíricas de los fenómenos que se estudian, y esas representaciones responden a definiciones institucionales. Por lo tanto, puede existir una amplia variación entre lo que dos entidades registran en relación con un mismo fenómeno, dependiendo de los parámetros que estén utilizando tanto para observar como para capturar los datos sobre esos eventos. Aunque observen lo mismo, su registro puede variar.

La variación se explica como resultado de las distintas maneras de conceptualizar lo observado y de poner los conceptos en operación. Así, e. g., los datos que registran la Policía Nacional y la autoridad médico-legal de cualquier país sobre la violencia que acontece en ámbitos domésticos son diferentes. Por lo general, la autoridad policial registra los eventos en los cuales recibe una llamada para intervenir, y el agente de policía involucrado decide documentar el caso, sea por la gravedad del hecho, porque se generó un arresto o por insistencia de la víctima. No todos los casos observados por un agente de policía concluyen con un registro. Por su lado, la autoridad médico-legal, por lo general, tiene acceso a un número menor de casos de este tipo de violencia. Como es de esperarse, su registro se basa en los que conoce, pero solo conoce aquellos casos que requieren un parámetro médico-legal. Así, sus agentes deben registrar todos los casos de reconocimiento médico-legal. Como se desprende de este simple ejemplo, ambos proyectos de registro proporcionan datos útiles, pero con diferencias significativas (tanto en la muestra observada como en el dato capturado).

La variación entre distintos registros puede derivarse incluso de un mismo evento. Así, una muerte violenta puede ser concebida en términos policivos como un homicidio (capturando datos relativos al marco jurídico penal y policivo), mientras que para una autoridad de salud el mismo evento será registrado mediante atributos determinados por parámetros médicos. En este caso, el evento observado es el mismo, pero su representación en los registros varía.

Igualmente, la variación también se explica por diferencias entre las muestras que observan los distintos proyectos de registro. En términos técnicos, los datos de este tipo de registro institucional deben ser tratados como provenientes de una muestra de conveniencia, es decir, producto de un muestreo no probabilístico en el que los eventos son documentados como resultado de su proximidad y su contacto (accesibilidad) con la respectiva entidad. Su inclusión en la base de datos no depende de criterios probabilísticos, sino que se deriva de factores fortuitos, no aleatorios. Por lo tanto, este tipo de registro contiene una muestra que no es representativa y sus resultados no pueden ser generalizados.

Para resumir: todo proyecto de registro comienza con un proceso de conceptualización sobre un fenómeno que busca observar. Luego esos conceptos deben operativizarse mediante la estructuración de variables que serán capturadas, y la definición de pasos y procedimientos que se utilizarán en el proceso de medición. Además de estar determinado por estos pasos (en la fase de diseño), cada proyecto de registro también está condicionado por factores dinámicos en la fase de operación. Como se verá a continuación, en esa fase dinámica, elementos personales y organizacionales influyen en la cobertura de cualquier proyecto de registro; la inclusión y la exclusión de casos; la consistencia de la observación, y la manera de registrar los eventos.

3. De dónde vienen los datos y qué cuentan

En los distintos países del mundo, los datos oficiales sobre la criminalidad provienen, en general, de registros de policía y encuestas de victimización3. Los análisis en relación con lo que miden los distintos registros del delito están más desarrollados en Estados Unidos de América (EE. UU.) y los países europeos que en otros lugares del mundo. Los hallazgos de estos estudios son extensibles a los proyectos de registro en otros países, tanto por la influencia global de los modelos estadounidenses y europeos así como por derivarse de la aplicación de principios básicos sobre sistemas de información.

Con este fin, se examinan las características principales de los registros del delito que se utilizan en gran parte de los países. Los registros de policía son (por uso y costumbre) la fuente de datos más utilizada. En la mayoría de los países, estos tienen la cobertura más amplia, pero nunca total; además, incorporan sesgos con importantes implicaciones. E. g., como se demostrará, los datos faltantes sobre homicidios en los registros de la Policía revelan patrones que no se pueden ignorar.

Durante muchos años, los registros policivos fueron la única fuente oficial de registro de datos sobre la delincuencia. La introducción de las encuestas de victimización cambió el panorama del registro de la criminalidad y mejoró sustancialmente la información estadística sobre el delito y sus efectos. El uso de las encuestas de victimización en EE. UU. y el Reino Unido permitió ejercicios comparados con los registros de las Policías. Estos estudios permitieron la detección de variaciones entre las distintas fuentes, que evidenciaron que el registro de eventos delincuenciales por parte de las Policías excluía muchos de los eventos. Varios trabajos (Biderman & Lynch, 1991; Rand, Cantor & Lynch, 1987; Rand & Rennison, 2007) han analizado esta variación (divergencia) que existe entre los registros de policía y las encuestas de victimización.

En primer lugar, se determinó que los datos de la policía excluían todas aquellas conductas que no entraban en su ámbito de observación. Esta limitación ha sido estudiada desde hace décadas y es conocida como la cifra negra de la criminalidad (Biderman & Reiss, 1967). En segundo lugar, los datos que producen las Policías están condicionados por el grado y la efectividad de la actividad policial (Seidman & Couzens, 1974). Así, los datos no reflejan tendencias de la incidencia de conductas criminales, sino las prácticas policiales (incluyendo prioridades e iniciativas especiales) en relación con las conductas que documentan. En tercer lugar, muchos de los registros policivos (tanto en la actualidad como mayormente en el pasado) responden a datos agregados que no proporcionan información particular sobre los distintos incidentes documentados, o se refieren a registros con una gran cantidad de datos faltantes que reducen su utilidad o confiabilidad (Poggio, Kennedy, Chaiken & Carlson, 1985).

Al margen de la cantidad real de delitos que se cometen en un territorio nacional, todo registro policial tropezará con un límite de su capacidad para registrar (Mosher, Miethe & Phillips, 2002). Los picos y las disminuciones que se detectan en los registros policiales sobre la criminalidad no son tanto un reflejo de las tendencias o patrones criminales, como de la capacidad institucional de registrar: e. g., con el paso del tiempo, se pueden establecer nuevos puntos de atención o estaciones de policía en ciertas localidades, mientras se cierran otros. La instalación de las nuevas dependencias acarrea nuevas posibilidades para documentar casos que antes pasaban inadvertidos; el cierre, por el contrario, reduce la posibilidad de documentación. Así, la estadística oficial varía de acuerdo con la capacidad institucional de la Policía y no necesariamente en función de los patrones de cambio en la actividad delictiva.

De igual forma, las disminuciones reales en la incidencia de un delito particular (el robo, e. g.) pueden ser compensadas por un aumento en su registro, lo que produce un incremento en los casos registrados. E. g., después de detectar que muchas de las denuncias por robo no estaban siendo documentadas, la dirección de un órgano de Policía ordenó una nueva práctica para garantizar el registro de todas las denuncias recibidas. En estas condiciones, aunque la incidencia del robo puede en realidad disminuir en una localidad, la nueva práctica de registro (ordenada desde del nivel central) puede generar un reflejo de incremento de ese delito en particular. Así, los incrementos en el registro de un delito reflejan, por lo general, una adición de los recursos (materiales o humanos) para registrar los datos, no necesariamente un aumento en la actividad delictiva.

Las encuestas de victimización tampoco están desproveídas de críticas, incluyendo la falta de respuesta, los problemas de cobertura y muestreo, y la introducción de sesgos en el cuestionario. Sin embargo, al proporcionar otra representación de la realidad, las encuestas permitieron contrastar los datos que ofrecían casi de manera unánime las Policías en los distintos países. Justamente, el análisis de los puntos de superposición o solapamiento entre los diferentes registros y los hallazgos de eventos únicos en cada base de datos permitió constatar la naturaleza única (pero también parcial) de cada proyecto de registro.

Resumiendo: no hay proyecto de registro que logre capturar todos los eventos. Los proyectos de registro son únicos y contienen información apreciable, valiosamente única. Ningún registro de manera autónoma puede dar cuenta absoluta de la criminalidad (o de cualquier fenómeno social) en un país. Hay limitaciones inherentes a cualquier proyecto de registro, que se desprenden de la capacidad de registro (determinada por recursos), incluyendo la cobertura espacial y temporal; factores políticos condicionantes de su funcionamiento (constreñimientos), y elementos inherentes al proceso de registro, que inevitablemente conducen a datos que siempre serán, y estarán, faltantes (missing data).

En este orden de ideas, la respuesta a la pregunta ¿quién tiene los mejores datos? debe ser aparente: todos, pero ninguno de manera aislada.

4. ¿Cómo se aproximan los proyectos de registro a los datos faltantes?

En relación con toda base de datos se deben formular preguntas relativas a los datos faltantes: sea respecto de unidades enteras (es decir, eventos que no se registran), o la falta de ciertos atributos en relación con cada evento (es decir, la ausencia de información relativa a los eventos que se registran). La clave para la correcta aproximación a la realidad se encuentra en la comprensión de los datos faltantes. Aunque parezca contraintuitivo, la guía para aproximarse a un panorama más completo de un fenómeno social que se observa está en la exploración de lo que no se conoce, o más precisamente de lo que no fue observado.

Se sabe que, en la mayoría de los registros -incluso aquellos que son considerados como modelos (como el sistema uniforme de reporte del delito administrado por el Buró Federal de Investigaciones de EE. UU., conocido como UCR4)-, los datos faltantes no son insignificantes y tampoco están distribuidos de manera aleatoria; por lo tanto, no pueden ser ignorados (Allison, 2002; Lynch & Jarvis, 2008)5. Ignorar los datos faltantes es simple y llanamente ignorar parte (es posible que gran parte) de la realidad. Si se quiere ver más allá de lo que reflejan los datos registrados (según la muestra observada), es necesario recurrir a la estadística y proyectar de manera científica datos que modelen el universo no observado.

La otra gran implicación que se quiere traer a colación de lo que se sabe sobre la operación de los proyectos de registro del delito (y de la violencia), es que algunas conductas escapan de manera significativa a la observación de la Policía y de las autoridades en general. En estos casos, con el fin de tener información adecuada sobre la dinámica del fenómeno que se quiere observar, es necesario acudir a información complementaria y desarrollar análisis a partir de métodos mixtos (cuantitativos y cualitativos) de análisis. Si bien las encuestas de victimización pueden contribuir a elucidar los datos faltantes, tampoco son la solución en todos los casos.

La utilización de información complementaria y métodos de análisis mixtos para comprender ciertos fenómenos, como los delitos sexuales, es necesaria si se quieren superar los problemas que presentan los proyectos tradicionales de registro en relación con estos delitos. Las dificultades encaradas respecto de los delitos sexuales han sido documentadas en EE. UU. de forma amplia (Fisher & Cullen, 2000). En relación con la situación colombiana, existe un estudio (Roth, Guberek & Hoover, 2011) que analiza directamente los retos y las oportunidades de investigación de la violencia sexual en el país. Destaca entre sus conclusiones la necesidad de utilizar datos directos e indirectos para aproximarse a la realidad de los delitos sexuales en Colombia, y destaca que se deben valorar las contribuciones y las limitaciones que presentan los métodos cuantitativos y cualitativos hasta ahora utilizados en el país, antes de seguir reproduciéndolos. Este estudio también invita a profundizar en el uso de métodos cualitativos rigurosos, que pueden producir conocimiento relativo a la práctica y los patrones de este tipo de violencia en contextos específicos.

Otros dos fenómenos que presentan dificultades similares en relación con el subregistro por parte de los proyectos tradicionales de datos son el secuestro y la extorsión. La naturaleza subrepticia de estas conductas, junto con el condicionamiento forzado de la no denuncia (el cual es inherente a su perpetración), hace que su registro sea particularmente esquivo. Nótese el riesgo que se corre al tomar las cifras reportadas por cualquier autoridad en relación con las tendencias del secuestro o la extorsión, como si se tratara de algo distinto a la capacidad de registro de esas entidades respecto de las conductas en cuestión. De aceptarse su valor absoluto se estaría sesgando la comprensión que se tiene de esos fenómenos.

Finalmente, cabe resaltar que el subregistro también debe contemplarse en relación con los delitos más evidentes, como los homicidios. Puede ser que el problema de datos faltantes no sea tan grande como en el caso de los delitos derivados de la violencia sexual, pero este no deja de ser un problema significativo. Además, como se verá a través del siguiente ejemplo, su dimensión puede generar sorpresa.

El Gobierno de EE. UU. dispuso un proyecto especial para registrar los homicidios cometidos por la Policía de ese país, el cual denominó Arrest-Related Deaths (ARD) [base de datos en internet]6. El proyecto de registro fue organizado por el buró de estadísticas del Departamento de Justicia, la fuente oficial de información para el sistema de administración de justicia penal en ese país. El proyecto ARD produce un listado que consolida los esfuerzos de los cuerpos policiales de cada Estado de la Unión y las autoridades forenses de EE. UU. Da cuenta de 3.620 homicidios cometidos por policías en un período de ocho años (2003-2009 y 2011), un promedio anual de aproximadamente 450 homicidios cometidos por estos.

Dados los notorios casos de violencia policiva en EE. UU., las máximas autoridades federales necesitaban dimensionar el problema. Reconociendo que el registro ARD, como todos los proyectos de registro (oficiales y no oficiales), es incompleto, el Gobierno federal solicitó un estudio para evaluar su cobertura e integridad. Utilizando un método estadístico de comparación de listados, un grupo de técnicos analizó la integridad del registro ARD en relación con otro registro mantenido por el Buró Federal de Investigaciones (FBI). La evaluación publicada en marzo del 2015 (Banks, Blanton, Couzens & Cribb) es reveladora: el listado ARD no registra muchos casos de homicidios cometidos por la policía, que sí son registrados por el FBI; el registro ARD varía en cobertura a través de los años, y el desglose de los datos según la geografía estadounidense permite detectar variación en la cobertura del registro entre los distintos estados (e. g., Missouri reportó solo una fracción limitada de los homicidios al registro ARD, mientras Connecticut reportó la totalidad).

La evaluación reveló que el universo de homicidios cometidos por policías estadounidenses en el período es más cercano a los 7.427 casos. Concluyó que el registro ARD solo daba cuenta de la mitad de los homicidios que probablemente habían acontecido. Estimó que más de 2.000 casos no fueron observados por ninguno de los dos registros oficiales. Complementando el cálculo, Human Rights Data Analisis Group (HRDAG), una organización sin ánimo de lucro y dedicada a la producción de conocimiento mediante las ciencias sociales y la tecnología, realizó un análisis de sensibilidad y corrigió las estimaciones presentadas en la evaluación contratada por el Gobierno estadounidense, y demostró que el total real de homicidios probablemente es más cercano a los 10.000 casos (Lum & Ball, 2015). Los métodos utilizados en el estudio oficial sobre los homicidios cometidos por policías en EE. UU. (Banks et al., 2015) y aquellos aplicados por HRDAG (Lum & Ball, 2015) son muy similares a los utilizados para proyectar el total de homicidios en el departamento de Antioquia, que se esbozan en la siguiente sección.

Por el tipo de homicidio que se analizaba, la capacidad técnica de las agencias estadounidenses y los niveles de transparencia exigidos por esa sociedad, es razonable esperar que los datos tuviesen una mayor cobertura. Sin embargo, se constató que la tendencia al ocultamiento de homicidios cometidos por agentes estatales es elevada y que el subregistro del homicidio es alarmante.

Con base en el anterior ejemplo, consideren las implicaciones para la realidad colombiana, tanto en función de los registros que se mantienen sobre distintas manifestaciones de criminalidad y violencia como en relación con el uso que se da a los datos que producen. Además, ¿cuántos datos faltantes habrá en los registros oficiales sobre la criminalidad en Colombia? A nuestro modo de ver, el reconocimiento de la falibilidad de los proyectos de registro no debería ser tomado como señal de fallas institucionales, sino como expresión de vocación técnica y disposición a utilizar la ciencia para aproximarse a la realidad.

5. Colombia, un universo por explorar

Los proyectos colombianos de registro del delito (y de la violencia) son de buena calidad. Los proyectos oficiales, en particular los gestionados por la Policía Nacional y el Instituto Nacional de Medicina Legal y Ciencias Forenses (INMLCF), contienen una gran riqueza de datos. Ambas entidades demuestran actualmente apertura para mejorar sus procesos de captura, análisis y reportes de información. Además, existen en Colombia persistentes proyectos no oficiales de registro de distintas manifestaciones de violencia, que son un importantísimo y necesario complemento de las fuentes oficiales. Sin embargo, a nuestro modo de ver, esta abundancia de datos es subutilizada y rara vez analizada de manera técnica.

Un paso necesario es lograr el cotejo científico entre los distintos proyectos de registro de datos sobre el delito y la violencia, para así descubrir sus fortalezas. A partir de este paso es posible empezar a indagar sobre los datos faltantes, probablemente abundantes, que deben ser proyectados para que los análisis trasciendan las limitaciones que imponen las muestras no probabilísticas. La aproximación a la realidad debe hacerse mediante herramientas científicas de estimación que permitan proyectar lo que no fue documentado por los distintos proyectos de registro. La estimación basada en la probabilidad estadística es el único método científico y con rigor matemático que permite estimar los datos faltantes.

Es claro que las políticas de mejoramiento en el proceso de recolección de datos son importantes, pero esas medidas no tienen la capacidad de resolver el problema de los datos faltantes, ni en Colombia ni en ningún país del mundo. La restricciones institucionales (presupuestales y logísticas) para registrar datos nunca desaparecerán. Tampoco se debe resolver el problema de la divergencia entre los distintos registros oficiales mediante ejercicios de coordinación que buscan homologar los datos de los distintos proyectos oficiales de registro. De hecho, este ejercicio puede empeorar el panorama en la medida en que anula las fortalezas de los distintos proyectos de registro y reduce la naturaleza única de las diferentes bases de datos, lo que impide el trabajo de comparación. La divergencia no es un atributo negativo en el cotejo de estas bases; justamente, es esta variación la que permite estudiar los datos faltantes.

En el marco de la cooperación técnica y persiguiendo el interés de generar alianzas que promuevan el conocimiento científico sobre fenómenos sociales (en particular relacionados con iniciativas tendientes a reducir la violencia y proteger los derechos humanos), la Oficina en Colombia del Alto Comisionado de las Naciones Unidas para los Derechos Humanos (ONU-Derechos Humanos) promovió un proyecto, conjuntamente con HRDAG, que explora la utilidad de las ciencias sociales y la tecnología para mejorar la comprensión de la incidencia de la violencia letal en Colombia. El proyecto contó con la activa colaboración del INMLCF, la Policía Nacional y la Fiscalía General de la Nación. Asimismo, se benefició de datos producidos por la Comisión Colombiana de Juristas y una antigua base de datos que se produjo con registros del extinto Departamento Administrativo de Seguridad. En relación con esas bases de datos, todas incompletas pero únicas, se realizó un ejercicio de cotejo de los registros utilizando una combinación de métodos de valoración humana y procesos de aprendizaje automatizado (machine learning). Este proyecto permitió la producción de una lista integrada de homicidios documentados por las cinco bases de datos, que vincula los registros de las distintas bases que se referían a la misma víctima, según nombre y apellido. El proceso de desduplicación siguió los pasos esbozados por Christen (2012). El registro integrado final proporcionó un total de 258.468 anotaciones únicas de homicidios7. Este resultado permitió definir el conteo de registros según base de datos y la superposición de los mismos en esta. Este producto es un paso esencial para la siguiente fase: la estimación del número de homicidios que acontecieron en Colombia que no fueron documentados por ninguna de las cinco fuentes.

Con base en el análisis de los patrones de registro múltiple de homicidios (según las diferentes fuentes), se estimó el número de los no registrados. Los datos faltantes se calcularon mediante una conocida técnica de estimación probabilística, que se denomina captura y recaptura, o estimación por sistemas múltiples8.

Con el fin de ilustrar el método utilizado, a continuación explicamos la lógica de la estimación que usa la captura y recaptura de datos. A partir de dos bases de datos -como los ejemplos antes presentados, registro ARD y registro FBI, sobre las muertes producidas por las distintas Policías en EE. UU.-, estas pueden ser comparadas para determinar los patrones de registro. Mediante esa comparación, se puede establecer cuáles muertes fueron reportadas solo en el registro ARD, cuáles en ambas bases de datos, y cuáles exclusivamente en el del FBI. Todas las muertes existen en un universo total N, que incluye aquellas que fueron observadas (registradas) mediante estos proyectos de información, así como las muertes que no fueron incluidas en los registros. La probabilidad de que una muerte del universo N esté reportada en el registro ARD corresponde al número de muertes registradas por ARD dividido por N (ARD/N). De igual forma, la probabilidad de que una muerte del universo N esté registrada por el FBI es el número de muertes anotadas en la base de datos del FBI dividido por N (FBI/N). La probabilidad de que una muerte aparezca como registro en ambas bases de datos, corresponde al número de muertes reportadas por ambos registros dividido por el universo N, es decir: (ARD & FBI)/N. Obviamente, es necesario determinar con anterioridad las muertes registradas por ambos proyectos (ARD & FBI), mediante un ejercicio técnico de comparación y contrastación de los dos. Además, la probabilidad de que una muerte sea registrada por ambos proyectos de información corresponde a la probabilidad de que aparezca en el primero (ARD), multiplicado por la probabilidad de que aparezca en el segundo (FBI), así: (ARD/N) * (FBI/N) = (ARD & FBI)/N. La ecuación puede ser reformulada para estimar el universo N, de la siguiente manera: N = (ARD * FBI)/(ARD & FBI). Expresada de forma muy sencilla, esta es la lógica de los métodos que se presentan en este artículo.

Obviamente, el ejercicio técnico de estimación es mucho más complejo. Varios componentes adicionales fueron incorporados para responder de manera específica a los retos que se derivan de los supuestos incorporados en la descripción contenida en el párrafo anterior. La estimación del total de homicidios en Colombia, que se presenta en este texto, utiliza los métodos publicados originalmente por Madigan & York (1997). Diversas versiones de los métodos de captura y recaptura se han utilizado para estimar: el total de muertes violentas durante la guerra civil de Bosnia (Brunborg, Lynstad & Urdal, 2003; Zwierzchowski & Tabeau, 2010); el total de muertes durante la guerra civil peruana (Ball, Asher, Sulmont & Manrique, 2003; Manrique & Fienberg, 2008); las muertes en la guerra civil en El Salvador (Hoover Green, 2011); el total en Kosovo (Ball, Betts, Scheuren, Dudukovic, & Asher, 2002); el total de las muertes durante la ocupación de Indonesia de Timor del Este (Silva & Ball, 2007), y las muertes en Colombia (Lum, Price, Guberek, & Ball, 2010; también Mitchell 2014). Las particularidades técnicas de cada estudio, incluyendo las utilizadas en las estimaciones que aquí se presentan, darían lugar a una discusión que trasciende el propósito de este artículo y que, además, estaría dirigido a una audiencia distinta. Los pasos básicos del proceso y de los métodos utilizados en las estimaciones presentadas a continuación están descritos en Lum, Price & Banks (2013); la estimación se realizó para el período comprendido entre el 2003 y el 20119.

Con el fin de explorar el potencial de este tipo de indagación científica, se ilustran las herramientas y los resultados obtenidos mediante un ejemplo basado en los datos disponibles sobre Antioquia (Código departamental N.ยบ 05, según el Departamento Administrativo Nacional de Estadística, DANE)10. El estudio estadístico completo será presentado en el futuro cercano; en este texto solo se presentan los resultados de un departamento, a manera de ilustración.

En las siguientes gráficas (1, 2 y 3) se observan una serie de barras, cada una correspondiente a un trimestre. Cada uno está representado, a su vez, por varias barras apiladas, u ordenadas verticalmente. En la parte inferior de cada barra hay una porción blanca, que representa el total de homicidios registrados por las cinco fuentes, según el ejercicio de cotejo que se realizó. Esta tendencia del homicidio, con base en la lista que integra las víctimas de las cinco fuentes, nunca ha sido adoptada.

El color blanco indica que la probabilidad de que el valor real esté presente en esta porción es cero. El proceso de estimación calcula si existe alguna posibilidad de que las cinco fuentes (integradas) hayan registrado todos los homicidios. Y como se puede observar en todas las gráficas presentadas, en ningún trimestre se presenta esa posibilidad. Es claro, por lo tanto, que siempre existió un mayor número de homicidios al total registrado por todas las bases de datos tomadas en conjunto. Las barras son blancas para dejar claro que el listado integrado de homicidios es la base para comprender los verdaderos patrones, pero no puede por sí sola evidenciar estos.

Arriba de la barra blanca se observa una barra azul (con gradación por tonalidad). El segmento azul claro representa el intervalo creíble bayesiano de 95% para la estimación, y el azul oscuro indica el intervalo creíble de 50%11. La barra sombreada de azul claro se puede interpretar de la siguiente manera: según los datos observados y el modelo utilizado, existe un 95% de probabilidad de que el número real del total de homicidios para cada período temporal esté contenido en el segmento de la barra que está sombreado de azul claro. Las barras más cortas (como las que se observan en 2004-Q3 y 2004-Q4) indican que las estimaciones son relativamente precisas, y que el error es relativamente pequeño. Las barras más largas, como la observada para el tercer semestre del 2003 (2003-Q3), demuestran que algunas de las estimaciones son imprecisas y más difíciles de interpretar.

La línea roja que se extiende a través de las barras azules representa la posición central en la distribución de la estimación (la mediana). Esta medida puede ser interpretada como el punto que establece que la mitad de las estimaciones probables están por encima, y la otra mitad, por debajo. Es recomendable tomar la línea roja (la mediana) en cada uno de los semestres como la mejor indicación de la tendencia a través del tiempo.

La interpretación de estas gráficas se puede resumir de la siguiente manera. Durante todos los períodos, el número de los homicidios observados es aproximadamente constante. Considerando los datos de las cinco fuentes, los homicidios en Antioquia se mantienen por debajo de 1.000 en cada trimestre hasta finales del 2009, cuando sobrepasan ese umbral. Sin embargo, las estimaciones demuestran otra realidad. En algunos períodos, el número de homicidios estimados es casi igual al número de homicidios observados, e. g., en algunos trimestres del 2004 y el 2006.

Empero, a finales del 2006 se observa un incremento repentino y sustancial del número de homicidios estimados. En la segunda mitad del 2006 (2006Q3-Q4) e inicios del 2007 (2007Q1), el número de homicidios estimados refleja un aumento importante. La interpretación es que en este período y, de manera significativa, otra vez en el 2009, hubo un incremento drástico de violencia homicida, pero se mantuvo oculta (y, por lo tanto, no fue observada). Este tipo de variación puede ser el resultado de actividad clandestina que no fue visible para las autoridades o que el pico de eventos de homicidio rebasó la capacidad institucional de las entidades locales para registrar el incremento en la violencia.

Las siguientes gráficas (2 y 3) adicionan una línea negra, que se extiende a través de las barras blancas. La línea negra de la gráfica 2 representa el patrón de homicidios a través del tiempo, según el registro de una de las cinco fuentes analizadas (con mayor cobertura); en la gráfica 3, en paralelo, se demuestra el patrón de homicidios a través del tiempo, representado por otra de las cinco fuentes analizadas.

Las gráficas ilustran claramente lo que se recalcó a lo largo de este escrito. Ninguna fuente logra observar todos los eventos; cada uno de los proyectos de registro tiene fortalezas y debilidades, y producen información única y valiosa. Las autoridades encargadas de registrar los eventos se encontraban trabajando al máximo de sus capacidades de registro durante todo el tiempo. No hay un trimestre en el que una base de datos haya capturado todos los homicidios que se pudieron haber documentado: como se puede ver, las líneas negras nunca tocan la parte superior de las barras blancas. Siempre hay homicidios que son visibles para un registro, siendo invisibles para los otros. Justamente, por esta razón no es recomendable que los proyectos de registro generen una integración impuesta de los datos que han observado. En cambio, cada entidad o proyecto de registro debería continuar trabajando según su propios criterios, enfoque y especialidades; solo después de un espacio de tiempo prolongado (al final de cada año, quizás) podrían cotejar los datos y organizar un listado integrado, que cumpla con todos los principios de manejo técnico y transparente de estos.

6. A manera de conclusión

La estadística se puede entender como una serie de herramientas que permiten organizar los datos y comprender su significado. El potencial de los proyectos de registro de delitos (y de violencia) solo se puede explotar mediante el uso de las herramientas que brinda la estadística. Por un lado, esta permite organizar, resumir y evaluar la integridad de los datos, lo que facilita la detección de frecuencias y tendencias, y permite la determinación de la variación y la relación entre distintas series de datos. Por otro lado, la estadística también permite desarrollar análisis basados en inferencias derivadas de las muestras observadas para poder referir de manera general al universo. Así, se pueden proyectar estimaciones probabilísticas con un intervalo creíble (probabilidad de acierto), para generar una proyección informada a la realidad, que incluye los datos no observados.

Esta dimensión del estudio de la criminalidad (y de la violencia) no ha sido suficientemente desarrollada en Colombia. Se reitera que los proyectos oficiales, en particular los gestionados por la Policía Nacional y el INMLCF, contienen una gran riqueza, pero los datos por sí solos no producen conocimiento. Se necesita aplicar las herramientas de análisis con las que se cuenta: la estadística es una de estas -a nuestro modo de ver, una de las más poderosas-. La apertura de estas entidades y la Fiscalía General de la Nación a crear alianzas para explorar sus datos y proyectar nuevo conocimiento científico augura resultados novedosos.

Declaración de los autores: El trabajo estadístico descrito en la sección 5 de este artículo fue comisionado a HRDAG por la Oficina en Colombia del Alto Comisionado de las Naciones Unidas para los Derechos Humanos, y recibió el apoyo del Gobierno de Noruega. Ese trabajo se realizó en el 2013 y el 2014. Este artículo pretende contribuir a la comprensión del trabajo técnico de cotejo de proyectos de registro del homicidio en Colombia y de estimación del número total de homicidios, explicando de manera básica los conceptos y la práctica de ese trabajo. El artículo es producto directo de los autores, y su contenido es responsabilidad exclusiva de los mismos; no vincula a la ONU-Derechos Humanos ni al donante. Los autores declaran que no existe ningún conflicto de intereses con su publicación.


Notas

1 El uso de modelos derivados del método de captura y recaptura para proyectar la realidad no registrada ha tenido desarrollos importantes en estos campos. E. g., en relación con el tamaño de la internet se puede examinar el trabajo de Lu (2010) o Anagnostopoulos, Stavropoulos & Anagnostopoulos (2011). En el campo de la ecología humana y poblacional, la producción es mucho mayor. Algunos de los textos fundacionales son Petersen (1896) y Lincoln (1930); para consultar un manual sobre el tema, se puede examinar Amstrup, McDonald & Manly (2005). Finalmente, en relación con censos humanos, algunos ejemplos de textos que han utilizado el método de captura y recaptura de manera original son: Sekar & Deming (1949); Seber (1965); Marks, Seltzer & Krotki (1974), y Darroch, Fienberg, Glonek & Junker (1993).

2 Ofreciendo un examen del uso y las aplicaciones de la vinculación de registros (aparejamiento) y de la captura y recaptura de registros, vid. Herzog, Scheuren & Winkler (2007).

3 Existen algunas fuentes complementarias; e. g., aquellas que provienen de encuestas que miden auto-reportes de conducta delictiva (selfreports from offenders) (Hindelang, Hirschi & Weis, 1981). Sin embargo, estas no han sido exploradas diligentemente en los países latinoamericanos. Igual de valiosos a los registros oficiales son los proyectos no oficiales que suelen tener como fuente los medios de comunicación, la observación directa o las redes sociales. Todas las fuentes distintas a los registros oficiales son un valioso y necesario complemento. Por razones de espacio, estos no serán abordados en este artículo, pero su valor complementario es subrayado.

4 El nombre oficial del proyecto de registro es: Federal Bureau of Investigation's (FBI) Uniform Crime Reporting (UCR) Program. Analistas del FBI que trabajan con el UCR son conscientes de que muchos (y posiblemente la mayoría) de los delitos no están representados en esa base de datos. Sin embargo, su trabajo se concentra en resolver los problemas que se derivan de que muchas jurisdicciones de Policía no reportan sus registros al FBI (Lynch & Jarvis, 2008). Este enfoque evade el problema mayor que, como ya fue expuesto, se deriva de que muchos delitos no son observados por las Policías en sus respectivas jurisdicciones y, por lo tanto, nunca estarán representados en el registro del UCR. Como resume de manera sucinta un análisis de este proyecto de registro: "porque está basado en los delitos que son reportados a la Policía, el UCR no es una buena medida de los delitos que acontecen en EE. UU." (Rand & Rennison, 2002) (traducción del inglés).

5 A una similar conclusión llegaron Zauberman & Névanen (2009) en relación con los registros de la Policía francesa.

6 Este ejemplo fue previamente presentado en una columna de opinión escrita por uno de los autores, Michael Reed, en "El misterio ronda el registro del homicidio". El Colombiano, 6 de abril de 2015, disponible en: http://m.elcolombiano.com/article/221139.

7 Inicialmente, se tomaron 1.329.852 registros de las cinco fuentes de información. Luego, se realizó un filtro inicial para excluir, entre otros: suicidios o accidentes, registros sin nombres completos, registros sin fechas o sin lugar de muerte (o carente de suficiente especificidad). El proceso de importación de datos produjo un total de 418.261 registros de homicidios plenamente identificados. Luego se llevó a cabo un proceso de revisión humana y computacional para deduplicar registros y construir clústeres. Este proceso fue presentado a todas las organizaciones que participaron en el proyecto, incluyendo la Policía Nacional.

8 Hoover (2013) brinda una explicación básica sobre los fundamentos matemáticos de esta técnica. Lum, Price & Banks (2013) proporcionan un barrido histórico detallado del uso del método, con atención particular a su uso para estimar el total de homicidios faltantes (o no documentados). El método bayesiano utilizado aplica el modelo propuesto por Madigan & York (1997).

9 Los ejercicios de estimación se desarrollan en función de una organización estratificada de los datos, según su comportamiento en bloques que corresponden a variables de tiempo y lugar (localización geográfica). Este tipo de división en grupos o clases permite analizar los patrones en los datos. El referente geográfico utilizado fue el departamento. Los referentes temporales fueron: año, semestre y trimestre. El trabajo fue realizado utilizando el software de estadística "R", aplicando *dga* (Johndrow, Lum & Ball, 2014) para proyectar el número de homicidios no registrados según el método de estimación por sistemas múltiples desarrollado por Madigan & York (1997).

10 Los resultados detallados de este estudio, junto con todos los hallazgos técnicos, serán dados a conocer próximamente. Además de la explicación matemática, se presentarán los archivos que contienen las estimaciones por cada departamento, la unidad de análisis de mayor precisión de acuerdo con los datos que fueron utilizados. Estos datos serán un aporte para aumentar la comprensión de la compleja realidad colombiana.

11 Estas son estimaciones bayesianas; por lo tanto, se presentan "intervalos creíbles" no "intervalos de confianza", como suele hacerse en la estadística clásica. Estos intervalos son asimétricos y su interpretación difiere de la hecha según el método clásico.


Referencias

Allison, P. (2002). Missing data. Thousand Oaks, CA:Sage.

Amstrup, S. C., McDonald, T. L. & Manly, B. F. (2005). Handbook of Capture-Recapture Analysis. Princeton, NJ: Princeton University Press.

Anagnostopoulos, I., Stavropoulos, P. & Anagnostopoulos, C. (2011). "On the feasibility of applying capture recapture experiments for web evolution estimations." Working Paper from University of the Aegean, Department of Information and Communication Systems Engineering. Disponible en: http://www.researchgate.net/profile/Ioannis_Anagnostopoulos/publication/233992028_janag_submission/links/02bfe50ddb41b7dbb0000000.pdf.

Arrest Related Deaths (2003-2009) [base de datos en Internet]. Washington, DC (USA): Department of Justice, Bureau of Justice Statistics. Disponible en: http://www.bjs.gov/index.cfm?ty=tp&tid=82.

Ball, P., Betts, W., Scheuren, F., Dudukovic, J. & Asher, J. (2002). Killings and Refugee Flow in Kosovo, March-June 1999. Washington, DC: American Association for the Advancement of Science.

Ball, P., Asher, J., Sulmont, D. & Manrique, D. (2003). How Many Peruvians Have Died? Report published by the American Association for the Advancement of Science for the Peruvian Truth and Reconciliation Commission.

Banks, D., Blanton, C., Couzens, L. & Cribb, D. (2015). Arrest-Related Deaths Program Assessment: Technical Report. RTI International, NCJ 248543. Disponible en: http://www.bjs.gov/index.cfm?ty=pbdetail&iid=5259.

Biderman, A. D. & Reiss, A. J. (1967). "On exploring the 'dark figure' of crime". Annals of the American Academy of Political and Social Science, 374: 1-15.

Biderman, A. D. & Lynch, J. P. (1991). Understanding crime incidence statistics: Why the UCR diverges from the NCS. New York: Springer- Verlag.

Brunborg, H., Lynstad, T. H. & Urdal, H. (2003). "Accounting for Genocide: How Many Were Killed in Srebrenica?" European Journal of Population, 19: 229-248.

Christen, P. (2012). Data Matching. Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection. New York: Springer.

Darroch, J. N., Fienberg, S. E., Glonek, G. F. V. & Junker, B. W. (1993). "A Three-Sample Multiple-Recapture Approach to Census Population Estimation with Heterogeneous Catchability." Journal of the American Statistical Association, 88: 1137-1148.

Fisher, B. S. & Cullen, F. T. (2000). "Measuring the sexual victimization of women: Evolution, current controversies and future research". In Criminal justice 2000: Measurement and analysis of crime and justice (pp. 317-390). Edited by David Duffee, David McDowall, Lorraine Green Mazerolle, and Stephen D. Mastrofski. Washington, DC: National Institute of Justice.

Herzog, T. N., Scheuren, F. J. & Winkler, W. E. (2007). Data Quality and Record Linkage Techniques. New York: Springer.

Hindelang, M. J., Hirschi, T. & Weis, J. G. (1981). Measuring delinquency. Beverly Hills, CA: Sage.

Hoover, A. (2013). "Multiple Systems Estimation: The Basics". Disponible en: https://hrdag.org/mse-the-basics/.

Hoover Green, A. (2011). "Repertoires of Violence Against Noncombatants: The Role of Armed Group Institutions and Ideologies." PhD dissertation, Department of Political Science, Yale University.

Johndrow, J., Lum, K. & Ball, P. (2014). dga: Capture- Recapture Estimation using Bayesian Model Averaging. R package version 1.2. https://urldefense.proofpoint.com/v2/url?u=https-3A__cran.r-2Dproject.org_web_packages_dga_index.html&d=AwIFaQ&c=-dg2m7zWuuDZ0MUcV7Sdqw&r=zktQJSPjgtanNSGpCCxY1M80dsoC6Sfq4XGj7M4Cai8&m=4v5Q8iO6IzGnVub-9zk30kU8JlhN62TNOQFxQvSblDI&s=lRZ0GyZIEcb9a-BFmEhYe7L1IrDNb5deSFylYnYqLXc&e=.

Lincoln, F. C. (1930). "Calculating Waterfowl Abundance on the Basis of Banding Returns." Circular 118: 1-4.

Lu, J. (2010). "Ranking bias in deep web size estimation using capture recapture method." Data & Knowledge Engineering, 69 (8): 866-879.

Lum, K., Price, M., Guberek, T. & Ball, P. (2010). "Measuring Elusive Populations with Bayesian Model Averaging for Multiple Systems Estimation: A Case Study on Lethal Violations in Casanare, 1998-2007." Statistics, Politics, and Policy, 1.

Lum, K., Price, M. E. & Banks, D. (2013). "Applications of Multiple Systems Estimation in Human Rights Research." The American Statistician, 67 (4): 191-200. (doi http://dx.doi.org/10.1080/00031305.2013.821093).

Lum, K. & Ball, P. (2015). "Estimating Undocumented Homicides with Two Lists and List Dependence." HRDAG. Disponible en: https://hrdag.org/police-homicides-reconsideration.

Lynch, J. P. & Addington, L. A. (2007). Understanding crime statistics: Revisiting the divergence of the NCVS and UCR. Cambridge, UK: Cambridge University Press.

Lynch, J. P. & Jarvis, J. P. (2008). "Missing Data and Imputation in the Uniform Crime Reports and the Effects on National Estimates." Journal of Contemporary Criminal Justice 24: 69-85.

Madigan, D. & York, J. C. (1997). "Bayesian Methods for Estimation of the Size of a Closed Population." Biometrika, 84 (1): 19-31.

Manrique, D. & Fienberg, S. (2008). "Population Size Estimation Using Individual Level Mixture Models." Biometrical Journal, 50: 1051- 1063.

Marks, E. S., Seltzer, W. & Krotki, K. J. (1974). Population Growth Estimation: A Handbook of Vital Statistics Measurement. The Population Council.

Mitchell, S. A. (2014). "Capture-recapture Estimation for Conflict Data and Hierarchical Models for Program Impact Evaluation." PhD dissertation, Department of Statistics, Harvard University.

Morrison, W. D. (1897). "The Interpretation of Criminal Statistics." Journal of the Royal Statistical Society, 60: 1-32.

Mosher, C., Miethe, T. & Phillips, D. (2002). The Mismeasure of Crime. Thousand Oaks, CA: Sage Publications.

Petersen, C. G. J. (1895). "The Yearly Immigration of Young Plaice Into the Limfjord from the German Sea." Report of the Danish Biological Station 6 (1896): 5-84.

Poggio, E. C., Kennedy, S. D., Chaiken, J. M. & Carlson, K. E. (1985). Blueprint for the future of the Uniform Crime Reporting Program: Final report of the UCR study. Washington, DC: US Department of Justice.

Rand, M., Cantor, D. & Lynch, J. P. (1997). Criminal victimization, 1973-95. Washington, DC: Bureau of Justice Statistics.

Rand, M. & Rennison, C. M. (2002). True crime stories? Accounting for differences in our national crime indicators. Chance, 15: 47-51.

Reed, M. (2015) "El misterio ronda el registro del homicidio". El Colombiano, disponible en: http://m.elcolombiano.com/article/221139.

Roth, F., Guberek, T. & Hoover, A. (2011). El uso de datos cuantitativos para entender la violencia sexual relacionada con el conflicto armado colombiano: retos y oportunidades. Bogotá: Corporación Punto de Vista y Benetech. Disponible en: https://hrdag.org/content/colombia/SV-report_2011-04-26.pdf (inglés) y http://www.cpvista.org/docs/CPV-Benetech-SV%20estudio-es-sept2011.pdf (español).

Seidman, D. & Couzens, M. (1974). "Getting the crime rate down: Political pressure and crime reporting". Law and Society Review, 8: 457- 493.

Seber, G. A. F. (1965). "A Note on the Multiple Recapture Census." Biometrika, 52: 249-259.

Sekar, C. C. & Deming, W. E. (1949). "On a Method of Estimating Birth and Death Rates and the Extent of Registration." Journal of the American Statistical Association, 245: 101- 115.

Silva, R. & Ball, P. (2007). "The Demography of Conflict- Related Mortality in Timor-Leste (1974- 1999): Empirical Quantitative Measurement of Civilian Killings, Disappearances & Famine- Related Deaths." In Statistical Methods for Human Rights. Ed. by J. Asher, D. Banks & F. Scheuren. New York: Springer.

Zauberman, R. & Névanen, D. (2009). "L'acteur et la mesure. Le comptage de la délinquance entre données administratives et enquêtes. Revue Française de Sociologie, 50: 31-62.

Zwierzchowski, J. & Tabeau, E. (2010). "The Global Costs of Conflict." Paper presented at the International Research Workshop, Berlin.