La evaluación de los programas de democracia, derechos humanos y gobernanza (DDG) puede identificar y describir resultados clave, evaluar o mejorar la calidad de la implementación del programa, identificar lecciones que podrían mejorar la implementación de programas similares, o atribuir cambios en los resultados clave a la intervención del programa. Esta sección generalmente se enfoca en el último tipo de evaluación (evaluación de impacto), o en determinar la medida en que un programa contribuyó a cambiar resultados de interés.
Atribuir los resultados observados a los programas es quizás el desafío de investigación más difícil en el ciclo del programas de DDG. Sin embargo, existen varios diseños de investigación de evaluación que pueden ayudar a los profesionales de DDG a determinar si los programas tienen efecto en un resultado de interés, si producen resultados no buscados, cuál de varias alternativas es más probable que haya tenido efecto, si ese efecto es positivo o negativo, y qué tan grande podría ser ese efecto. A menudo, estos métodos se pueden utilizar dentro del ciclo del programa para optimizar las actividades, especialmente dentro del marco de una CLA, gestión adaptativa o escala de prueba piloto.
Los programas para contrarrestar la desinformación pueden adoptar muchas formas con muchos posibles resultados previstos, que van desde capacitaciones a pequeña escala de periodistas o funcionarios públicos y campañas más amplias de alfabetización mediática hasta comunicaciones masivas tales como verificación de datos o calificación de medios de comunicación. No existe un enfoque de investigación de evaluación único que funcione para todas las intervenciones en la lucha contra la desinformación. Los diseñadores e implementadores de programas de DDG deben considerar consultar con personal interno e investigadores aplicados, evaluadores externos o investigadores académicos para desarrollar un enfoque de evaluación que responda preguntas de investigación de interés para el programa, teniendo en cuenta las limitaciones prácticas de tiempo, mano de obra, presupuesto, escala y capacidad de monitoreo y evaluación.
Preguntas clave de investigación:
- ¿Un programa o actividad produce un cambio medible en un resultado de interés? Por ejemplo, ¿un programa de alfabetización mediática aumentó la capacidad de los participantes de distinguir entre noticias verdaderas y falsas? ¿Un programa produce resultados no buscados?
- ¿Cuál es la magnitud del efecto o impacto de una actividad en un resultado de interés?
- ¿Cuál es la dirección del efecto de una actividad en un resultado de interés? Por ejemplo, ¿un programa de verificación de datos disminuyó la confianza en los informes de noticias falsas o produjo una mayor aceptación de esos informes a través de una reacción negativa?
Enfoques experimentales o aleatorizados
Las evaluaciones aleatorizadas —también llamadas comúnmente ensayos controlados aleatorizados (ECA) o experimentos de campo— a menudo se mencionan como el estándar de oro para la inferencia causal, que consiste en determinar si una intervención produjo un resultado de interés y de qué manera lo hizo. Cuando son viables desde el punto de vista logístico, financiero y ético, los ECA son el mejor método disponible para la inferencia causal porque controlan las variables de confusión —factores distintos de la intervención que podrían haber causado el resultado observado—. Los ECA controlan estas explicaciones alternativas, para lo cual asignan aleatoriamente a los participantes a uno o más grupos de "tratamiento" (en los que reciben una versión de la intervención en cuestión) o a un grupo de "comparación" o "control" (en el que los participantes no reciben ninguna intervención o contenido placebo). Dado que los participantes se asignan al azar al tratamiento o al control, cualquier diferencia observada en los resultados entre esos grupos puede atribuirse a la intervención en sí. De esta manera, los ECA pueden ayudar a los profesionales e investigadores a estimar la efectividad de una intervención.
Los costos y los compromisos logísticos de una evaluación de impacto aleatorizada pueden ser muy variables, y dependen en gran parte de los costos de la recopilación de datos de resultados. Sin embargo, las intervenciones informativas, incluidas las destinadas a contrarrestar la desinformación, pueden ser particularmente susceptibles a las evaluaciones aleatorizadas, ya que las herramientas digitales pueden hacer que la recopilación de datos sea menos costosa que en los métodos cara a cara, como entrevistas o encuestas en persona. Sin embargo, independientemente de los métodos de recopilación de datos, las evaluaciones aleatorizadas requieren de gran pericia técnica y planificación logística, y no son apropiadas para todos los programas, en especial aquellos que actúan a una escala relativamente pequeña, ya que exigen un gran número de unidades de observación para identificar diferencias estadísticamente significativas. Estos enfoques de evaluación no deben utilizarse para evaluar todos los programas. Otros métodos de evaluación de impacto difieren en la forma en que se aproximan a la aleatorización para medir el efecto de las intervenciones en los resultados observados y pueden ser más apropiados para ciertos diseños de programas.
Highlight
Para ver una guía completa sobre el uso de evaluaciones aleatorias para inferencia causal en la programación del desarrollo, consulte los recursos de investigación de J-PAL.
Highlight
Focalización en la investigación: la propaganda rusa da en el blanco: Comprobación experimental del impacto de la propaganda rusa y las contraintervenciones
En 2020, los investigadores de RAND Corporation, en asociación con el programa Learn2Discern de IREX de Ucrania, llevaron a cabo un ensayo de control aleatorizado para estimar tanto el impacto de una campaña de desinformación rusa como el de una respuesta programática que incluía etiquetado de contenido e intervenciones de alfabetización mediática. Un hallazgo del experimento fue que la propaganda rusa produjo reacciones emocionales y participación en las redes sociales entre partidarios fuertes, pero que esos efectos se mitigaron al indicar la fuente del contenido y al mostrar a los destinatarios un video corto sobre alfabetización mediática.
Enfoques cuasiexperimentales y no experimentales
Los investigadores y evaluadores pueden emplear métodos cuasiexperimentales o no experimentales cuando la asignación aleatoria al tratamiento y al control no sea práctica o ética. Como lo indica el nombre, estos diseños de investigación intentan atribuir cambios en los resultados a las intervenciones, para lo cual aproximan la asignación aleatoria a las condiciones de tratamiento y control por medio de comparaciones. En la mayoría de los casos, esta aproximación implica recopilar datos sobre una población que no participó en un programa, pero que es plausiblemente similar a los participantes del programa en otros aspectos. Quizás el más familiar de estos métodos para los profesionales de DDG es el de diseño de prepueba/posprueba, en el que se encuesta o evalúa a los participantes del programa con el mismo conjunto de preguntas tanto antes como después de su participación en el programa. Por ejemplo, los participantes de un programa de alfabetización mediática podrían responder un cuestionario que les pida distinguir entre noticias verdaderas y falsas, tanto antes como después de su participación en el programa. En este caso, la prepueba mide la capacidad de una aproximación de un grupo de “control” o “comparación”, y la posprueba mide esa capacidad en un grupo de “tratamiento” de participantes que han recibido el programa. Todo aumento en la capacidad de distinguir entre noticias verdaderas y falsas se atribuye al programa. Los estudios de casos comparativos estructurados y el seguimiento de procesos son ejemplos de diseños no experimentales que controlan los factores de confusión mediante comparaciones entre casos o dentro del mismo caso a lo largo del tiempo.
Hay una amplia variedad de métodos de investigación cuasiexperimentales y de observación disponibles para evaluar el impacto del programa. La elección que se haga entre estas herramientas para evaluar el impacto de un programa depende de los datos disponibles (o la capacidad de recopilar los datos necesarios) y los supuestos que se requieren para identificar estimaciones confiables del impacto del programa. Esta tabla, reproducida en su totalidad con el consentimiento por escrito de Abdul Latif Jameel Poverty Action Lab, proporciona un menú de estas opciones con sus respectivos supuestos y requisitos de recopilación de datos.
Método | Descripción | ¿Qué supuestos se requieren y qué tan exigentes son? | Datos requeridos | |
---|---|---|---|---|
Aleatorización | Evaluación aleatorizada/Ensayo de control aleatorizado | Mide las diferencias en los resultados entre los participantes del programa asignados al azar y los no participantes después de que el programa entró en vigor. | La variable de resultado solo se ve afectada por la participación en el programa en sí, no por la asignación para participar en el programa ni por la participación en la evaluación aleatorizada en sí. Ejemplos de tales efectos de confusión podrían ser los efectos de la información, los efectos indirectos o los efectos del experimentador. Al igual que con otros métodos, el tamaño de la muestra debe ser lo suficientemente grande para que los dos grupos sean estadísticamente comparables; la diferencia es que el tamaño de la muestra se elige como parte del diseño de la investigación. | Datos de resultados de los participantes asignados al azar y los no participantes (los grupos de tratamiento y de control). |
Métodos de comparación básicos no experimentales | Pre-Pos | Mide las diferencias en los resultados de los participantes del programa antes y después de que el programa haya entrado en vigor. | No hay otros factores (incluidos eventos externos, un impulso de cambio por parte de los propios participantes, condiciones económicas modificadas, etc.) que hayan cambiado el resultado medido de los participantes a lo largo del tiempo además del programa. En entornos estables y estáticos, y en plazos de tiempo cortos, el supuesto puede ser válido, pero no es posible verificarlo. Por lo general, se prefiere un diseño de diferencias en diferencias o de regresión discontinua (ver más abajo). | Datos sobre los resultados de interés de los participantes del programa antes del inicio del programa y después de que el programa entró en vigor. |
Diferencia simple | Mide las diferencias en los resultados entre los participantes del programa después de que el programa entró en vigor y otro grupo que no participó en el programa. | No hay diferencias en los resultados de los participantes y no participantes, excepto por la participación en el programa, y ambos grupos tenían la misma probabilidad de ingresar al programa antes de que comenzara. Este es un supuesto fuerte. Es posible que los no participantes no cumplan con los criterios exigidos, vivan en otro lugar o simplemente no le vean tanta utilidad al programa (autoselección). Cualquiera de estos factores puede estar asociado con diferencias en los resultados independientemente de la participación en el programa. Por lo general, se prefiere un diseño de diferencias en diferencias o de regresión discontinua (ver más abajo). | Datos sobre resultados de los participantes del programa, así como de otro grupo de no participantes después de que el programa entró en vigor. | |
Diferencias en diferencias | Mide las diferencias en los resultados de los participantes del programa antes y después del programa en relación con los de los no participantes. | Los demás factores que puedan haber afectado el resultado medido a lo largo del tiempo son los mismos para los participantes y no participantes, por lo que habrían tenido la misma trayectoria de tiempo sin el programa. En plazos de tiempo cortos y con grupos razonablemente similares, este supuesto puede ser plausible. Una "prueba placebo" también puede comparar las tendencias temporales en los dos grupos antes de llevar a cabo el programa. Sin embargo, al igual que con la “diferencia simple”, muchos factores que están asociados con la participación en el programa también pueden estar asociados con cambios en los resultados a lo largo del tiempo. Por ejemplo, una persona que espera una gran mejora en el futuro cercano podría no sumarse al programa (autoselección). | Datos sobre los resultados de interés de los participantes del programa y de otro grupo de no participantes antes del inicio del programa y después de que el programa entró en vigor. | |
Más métodos no experimentales | Regresión multivariante/mínimos cuadrados ordinarios | El enfoque de la “diferencia simple” puede llevarse a cabo, y en la práctica casi siempre se lleva a cabo, mediante regresión multivariante. Hacerlo permite tener en cuenta otros factores observables que también podrían afectar el resultado, a menudo llamados "variables de control" o "covariables". La regresión filtra los efectos de estas covariables y mide las diferencias en los resultados entre participantes y no participantes, a la vez que mantiene constante el efecto de las covariables. | Además de los efectos de las variables de control, no hay otras diferencias entre participantes y no participantes que afecten el resultado medido. Esto significa que todos los factores no observables o no medidos que afecten el resultado deben ser los mismos para los participantes y los no participantes. Además, las variables de control no pueden verse afectadas de ninguna manera por el programa. Si bien agregar covariables puede mitigar algunas inquietudes al tomar diferencias simples, la limitación de datos disponibles en la práctica y factores no observables implican que el método tiene problemas similares a la diferencia simple (por ejemplo, autoselección). | Datos sobre resultados de los participantes del programa, así como de otro grupo de no participantes, y "variables de control" de ambos grupos. |
Emparejamiento estadístico | Emparejamiento exacto: los participantes se emparejan con no participantes que son idénticos según las "variables de emparejamiento" para medir las diferencias en los resultados. En el emparejamiento por puntuación de propensión se utilizan las variables de control para predecir la probabilidad de que una persona participe y se utiliza esta probabilidad predicha como variable de emparejamiento. | Similar a la regresión multivariable: no hay diferencias entre participantes y no participantes con las mismas variables de emparejamiento que afecten el resultado medido. Las diferencias no observables son la principal inquietud en el emparejamiento exacto. En el emparejamiento por puntuación de propensión, dos individuos con la misma puntuación pueden ser muy diferentes incluso en las dimensiones observables. Por lo tanto, los supuestos que deben cumplirse para sacar conclusiones válidas son bastante exigentes. | Datos sobre resultados de los participantes del programa, así como de otro grupo de no participantes, y "variables de emparejamiento" de ambos grupos. | |
Diseño de regresión discontinua (RDD) | En un RDD, los requisitos de participación están determinados por un valor de corte en algún orden o clasificación, como el nivel de ingresos. Los participantes de un lado del valor de corte se comparan con los no participantes del otro lado, y el criterio de elegibilidad se incluye como variable de control (ver más arriba). | Toda diferencia entre los individuos por debajo y por encima del punto de corte (participantes y no participantes) se desvanece al acercarse al valor de corte. Un diseño de regresión discontinua cuidadosamente elaborado puede ser eficaz. El diseño utiliza el elemento "aleatorio" que se introduce cuando dos individuos que son similares entre sí según su orden terminan en lados diferentes del valor de corte. Además, emplea variables de control para dar cuenta de las diferencias continuas entre ellos. El supuesto de que estos individuos son similares entre sí se puede someter a prueba con parámetros observables de los datos. Sin embargo, el diseño limita la comparabilidad de los participantes más alejados del valor de corte. | Datos sobre resultados de los participantes y no participantes del programa, así como la "variable de ordenación" (también llamada "variable de forzamiento"). | |
Variables instrumentales | El diseño utiliza una "variable instrumental" que es un indicador predictivo de la participación en el programa. Luego, el método compara a los individuos según su participación prevista, en lugar de su participación real. | La variable instrumental no tiene efecto directo alguno en la variable de resultado. Su único efecto es a través de la participación de un individuo en el programa. Un diseño válido de variable instrumental requiere de un instrumento que no tenga relación con la variable de resultado. La dificultad radica en que la mayoría de los factores que afectan la participación en un programa para personas similares también están de alguna manera directamente relacionados con la variable de resultado. Con más de un instrumento, se puede poner a prueba el supuesto. | Datos sobre resultados de los participantes y no participantes del programa, así como una “variable instrumental”. |
Monitoreo de medios y análisis de contenido
Los enfoques de análisis de contenido y monitoreo de medios generalmente tienen como objetivo responder preguntas de investigación sobre si, cómo o por qué las intervenciones cambian la participación de la audiencia en la información o modifican la naturaleza o la calidad de la información en sí. Por ejemplo, un programa de verificación de datos podría plantear la hipótesis de que corregir la desinformación debería resultar en una menor participación de la audiencia en los medios de desinformación en las redes sociales, medida por vistas, “me gusta”, acciones de compartir o comentarios.
Existen varias herramientas disponibles para ayudar a los profesionales e investigadores de DDG a identificar cambios en el contenido de los medios. El análisis de contenido es un enfoque de investigación cualitativo mediante el cual los investigadores pueden identificar temas clave en material escrito, de audio o de video, y si esos temas cambian con el tiempo. Asimismo, el análisis de sentimientos puede ayudar a identificar la naturaleza de las actitudes o creencias en torno a un tema.
Tanto el análisis de contenido como el de sentimiento pueden llevarse a cabo por medio de codificación humana o automática, y deben realizarse en múltiples puntos del ciclo del programa junto con otros diseños de investigación de evaluación para evaluar el impacto del proyecto.
Highlight
Focalización en la investigación: evaluación del impacto cuasiexperimental de Learn2Discern de IREX
De octubre de 2015 a marzo de 2016, IREX implementó Learn2Discern, un programa de alfabetización mediática a gran escala en Ucrania, en colaboración con la Academia de la Prensa Ucraniana y StopFake. Como parte del programa, IREX llevó a cabo una evaluación del impacto cuasiexperimental utilizando el emparejamiento estadístico para comparar a los participantes del programa con los no participantes. El estudio reveló que los participantes del programa tenían:
- Un 28% más de probabilidades de demostrar un conocimiento sofisticado de la industria de los medios de comunicación
- Un 25% más de probabilidades de consultar varias fuentes de noticias
- Un 13% más de probabilidades de identificar correctamente y analizar críticamente una noticia falsa
- Un 4% más de probabilidades de expresar un sentido de agencia sobre las fuentes de noticias a las que pueden acceder.
Los donantes y los socios que implementan programas de lucha contra la desinformación deben considerar estos métodos cuasiexperimentales para evaluar la dirección y la magnitud de los impactos del programa en los resultados de interés, en particular cuando la asignación aleatoria al tratamiento y al control no es factible.
Highlight
Focalización en el proyecto: Proyecto Beacon de IRI
Las intervenciones del Proyecto Beacon se basan en una rigurosa investigación sobre la opinión pública y el seguimiento de los medios de comunicación, que se utiliza para dotar a los miembros de la Red Beacon de las herramientas y los datos necesarios para realizar un análisis en profundidad de los relatos malignas y las campañas de desinformación. En 2015, el Proyecto Beacon desarrolló >versus<, una herramienta de seguimiento de los medios de comunicación utilizada por expertos internos y monitores de medios de comunicación de toda Europa para rastrear las narrativas malignas y las campañas de desinformación en el espacio de los medios de comunicación en línea, analizar su dinámica y cómo se discuten en línea.
Análisis de redes
El análisis de redes es un método para comprender cómo y por qué la estructura de las relaciones entre los actores afecta un resultado de interés. El análisis de redes es un método de investigación particularmente útil para los programas para contrarrestar la desinformación porque permite a los analistas visualizar y comprender cómo se difunde la información a través de las redes en línea, incluidas las plataformas de redes sociales, los foros de discusión y otras comunidades digitales. Al sintetizar información sobre el número de actores, la frecuencia de las interacciones entre los actores, la calidad o intensidad de las interacciones y la estructura de las relaciones, el análisis de redes puede ayudar a los investigadores y profesionales a identificar canales clave para la propagación de la desinformación, la dirección de transmisión de la información o la desinformación, grupos que denotan distintos ecosistemas de información, y si la participación o la amplificación son genuinas o artificiales. A su vez, las métricas de redes pueden ayudar a brindar información para el diseño, el contenido y la focalización de las actividades de los programas. En la medida en que los analistas puedan recopilar datos de redes a lo largo del tiempo, el análisis de redes también puede proporcionar información para monitorear y evaluar programas.
Las herramientas de recopilación de datos para el análisis de redes dependen de la naturaleza de la red en general y de la plataforma de red en particular. El análisis de redes puede realizarse en redes fuera de línea en las cuales los investigadores tengan la capacidad de recopilar datos mediante el uso de técnicas estándares de encuestas presenciales, telefónicas, por mensaje de texto o asistidas por computadora. En estos casos, los investigadores han mapeado redes comunitarias fuera de línea mediante el uso de instrumentos de encuesta que piden a los encuestados que enumeren personas u organizaciones que sean particularmente influyentes, o a quienes podrían dirigirse para una tarea en particular. Luego, para mapear las redes, los investigadores pueden agregar y codificar las respuestas de todos los encuestados de la comunidad. De esta manera, los investigadores podrían determinar qué individuos influyentes de una comunidad podrían ser nodos para la diseminación de información, particularmente en contextos donde las personas dependen en gran medida de familiares y amigos para obtener noticias o información.
Sin embargo, según las API y los términos de servicio, las plataformas digitales como las redes sociales pueden reducir los costos de recopilación de datos de redes. Con herramientas dedicadas, incluido software de análisis de redes sociales, los investigadores pueden analizar y visualizar las relaciones entre los usuarios, incluidos la participación en el contenido, las relaciones entre seguidores y los "me gusta" o "compartir". Estas herramientas pueden posibilitar a los profesionales comprender la estructura de las redes en línea y, junto con las herramientas de análisis de contenido, de qué manera interactúa la estructura de las redes con determinados tipos de contenido.
Highlight
Focalización en herramientas: Herramienta de análisis de redes sociales en línea para VAWIE de IFES/NDI
Las Tecnologías de la Información y la Comunicación (TIC) han creado nuevos vehículos para la violencia contra las mujeres en las elecciones (VAWIE), que se ven agravados por el anonimato y la magnitud que proporcionan las plataformas de medios de comunicación en línea. Una nueva herramienta de la Agencia de los Estados Unidos para el Desarrollo Internacional (USAID), la Fundación Internacional para los Sistemas Electorales (IFES) y el Instituto Nacional Democrático (NDI) ofrece un método adaptable para medir los aspectos de género del abuso en línea y comprender los impulsores de esta violencia. La herramienta de análisis de redes sociales para VAWIE en línea puede ser utilizada por actores de diversas profesiones que estén preocupados por el discurso de odio y violencia en línea y estén motivados para acabar con él.
Highlight
Focalización en programas/herramientas: Análisis de datos del NDI para el monitoreo de las redes sociales
El NDI trata de capacitar a sus socios para que aprovechen la tecnología para fortalecer la democracia. Esto significa aprovechar el potencial de la tecnología para promover la integridad de la información y ayudar a construir democracias inclusivas, al tiempo que se mitiga el daño que suponen la desinformación, las campañas de influencia en línea, la incitación al odio, el acoso y la violencia.
Por esa razón, el NDI desarrolló, "Análisis de datos para el monitoreo de las redes sociales", una guía para activistas e investigadores de la democracia.
Esta nueva guía está diseñada para ayudar a los profesionales de la democracia a comprender mejor las tendencias en redes sociales, contenidos, datos y redes. Al compartir las lecciones aprendidas y las mejores prácticas de toda nuestra red mundial, esperamos capacitar a nuestros socios para que la democracia funcione en línea, ayudándoles a:
• Colaborar con socios locales, nacionales o internacionales;
• Comprender los diferentes métodos de recopilación de datos;
• Aprovechar al máximo la cartografía y la visualización de datos;
• Analizar el ecosistema en línea;
• Detectar contenidos maliciosos o manipulados y su origen;
• Comprender las herramientas disponibles para todos los aspectos del monitoreo de las redes sociales; y
• Saber responder con datos, métodos, investigaciones y mucho más a través de las redes sociales.
Highlight
Focalización en programas: Detección de huellas dactilares: Rastreo de la desinformación china en Taiwán.
En junio de 2019, con las elecciones locales de 2018 como punto de referencia, Graphika, el Laboratorio de Inteligencia Digital del Instituto para el Futuro (IFTF) y el Instituto Republicano Internacional (IRI) se embarcaron en un proyecto de investigación para estudiar exhaustivamente el entorno de la información en línea en el período previo, durante y después de las elecciones de enero de 2020 en Taiwán, teniendo en cuenta los precedentes de 2018 y con la vista puesta en posibles incidentes similares a lo largo de este ciclo electoral. Graphika y DigIntel monitorearon y recopilaron datos de Facebook y Twitter, e investigaron pistas en otras plataformas de redes sociales, como Instagram, LINE, PTT y YouTube. El IRI apoyó a varias organizaciones taiwanesas que archivaron y analizaron datos de granjas de contenidos y de las plataformas de redes sociales más populares de la isla. El equipo de investigación visitó Taiwán con regularidad, incluso durante las elecciones, para hablar con líderes de la sociedad civil, académicos, periodistas, empresas tecnológicas, funcionarios del gobierno, legisladores, la Comisión Electoral Central y partidos políticos. El objetivo era comprender las tácticas, los vectores y los relatos de desinformación en línea utilizadas durante un evento político de importancia crítica para los intereses estratégicos de Beijing. Al invertir en las organizaciones que investigan y combaten la desinformación en lengua china y las operaciones de influencia del CCP, esperaban aumentar la capacidad de la comunidad mundial de investigación de la desinformación para rastrear y exponer esta amenaza emergente para la información y la integridad democrática.
- Varios investigadores han argumentado en contra del uso del descriptor "cuasiexperimental" y señalan que, o bien el investigador tiene control sobre la asignación de unidades para el tratamiento o el control, o bien no lo tiene. Mantenemos el término dado de su uso común para referirse a métodos como los diseños previos y posteriores, la regresión discontinua, las variables instrumentales, la diferencia en diferencias y el emparejamiento, pero incluimos tanto los métodos cuasiexperimentales como los no experimentales en una sola categoría, y se reconoce la lógica de que cada uno de ellos conlleva métodos para controlar los factores de confusión a través de varios tipos de comparaciones.
- En esta analogía, los grupos de tratamiento y de control están formados por los mismos individuos, y hay muchas razones aparte de la intervención, como la selección de los participantes, que podrían explicar los cambios en los resultados entre las pruebas previas y las posteriores. Por ejemplo, el programa de alfabetización mediática podría anunciarse a los posibles participantes que estén relacionados con las organizaciones ejecutoras de alguna manera y que, por lo tanto, pueden ser más ricos o más educados que el ciudadano medio. En este caso, alguna característica de la población participante (p. ej., la educación o la capacidad de aprendizaje) podría impulsar el aumento de las puntuaciones entre las pruebas previas y posteriores, independientemente del contenido del programa. En este caso, el diseño de la prueba previa y posterior podría llevar a los investigadores o a los profesionales a sobreestimar el efecto real del programa.
- Consulter, por ejemplo, Wibbels, Erik. “The Social Underpinnings of Decentralized Governance: Networks, Technology, and the Future of Social Accountability.” En Decentralized Governance and Accountability: Academic Research and the Future of Donor Programming, 14–40. Nueva York: Cambridge University Press, 2019.