4. Оценочные исследования программ противодействия дезинформации

Оценка программ DRG может определять и описывать ключевые результаты, оценивать или улучшать качество реализации программы, выявлять уроки, которые могут улучшить реализацию аналогичных программ, или связывать изменения в ключевых результатах с вмешательством программы. В этом разделе рассматривается последний тип оценки — оценка воздействия , или определение степени, в которой программа способствовала изменениям в интересующих результатах.

Приписывание наблюдаемых результатов к программам — это, пожалуй, самая сложная исследовательская задача в программном цикле ДРГ. Тем не менее, существует несколько схем оценочных исследований, которые могут помочь специалистам, практикующим ДРГ, определить, влияют ли программы на интересующий результат, вызывают ли программы непредвиденные результаты, какой из нескольких альтернативных вариантов с большей вероятностью окажет эффект, является ли эффект положительным или отрицательным, и насколько большим может быть эффект. Часто эти методы можно использовать в рамках программного цикла для оптимизации деятельности, особенно в рамках СЛА , адаптивное управление или структура пилотного тестирования. .

Программы контрдезинформации могут принимать различные формы и иметь множество возможных результатов, начиная от небольших тренингов для журналистов или государственных чиновников и заканчивая более широкими кампаниями по повышению медиаграмотности и массовыми коммуникациями, такими как факт-чекинг или рейтинги СМИ. Не существует универсального подхода к исследованию оценки, который работал бы при любом вмешательстве дезинформации. Разработчикам и исполнителям программ ДРГ рекомендуется рассмотреть возможность проведения консультаций с внутренними сотрудниками и прикладными исследователями, внешними оценщиками или академическими исследователями для разработки подхода к оценке, способного ответить на исследовательские вопросы, представляющие интерес для программы, с учетом практических ограничений по времени, трудозатратам, бюджету, масштабу и возможностям мониторинг и оценки.

Ключевые вопросы исследования:

  • Вызывает ли программа или деятельность измеримое изменение интересующего результата? Например, повысила ли программа медиаграмотности способность участников отличать правдивые новости от ложных? Приводит ли программа к непредвиденным результатам?
  • Каков размер эффекта или влияния деятельности на интересующий результат? 
  • В каком направлении действие влияет на интересующий результат? Например, снизила ли программа факт-чекинг доверие к ложным новостям, или она вызвала рост принятия этих новостей из-за обратной реакции?

Рандомизированные или экспериментальные подходы

Рандомизированные оценки (также называемые рандомизированными контролируемыми испытаниями (РКИ) или полевыми экспериментами) часто упоминаются как золотой стандарт причинно-следственного вывода — определение того, вызвало ли вмешательство интересующий результат и каким образом. Там, где это логистически, финансово и этически осуществимо, РКИ являются наилучшим доступным методом причинно-следственного вывода, поскольку они контролируют смешивающие переменные — факторы, помимо вмешательства, которые могли вызвать наблюдаемый результат. РКИ контролируют эти альтернативные объяснения путем случайного распределения участников в одну или несколько групп «лечения» (в которых они получают вариант рассматриваемого вмешательства), «сравнения» или «контроля» (в которых участники не получают никакого вмешательства или получают плацебо). Поскольку участников случайным образом распределяют по группе лечения или контролю, любые наблюдаемые различия в результатах между этими группами можно отнести к самому вмешательству. Таким образом, РКИ может помочь практикам и исследователям оценить эффективность вмешательства. 

Затраты и материально-технические обязательства для проведения рандомизированной оценки воздействия могут быть самыми разными и в значительной степени зависят от затрат на сбор данных о результатах. Однако информационные вмешательства, в том числе направленные на противодействие дезинформации, могут быть особенно подходящими для рандомизированных оценок, поскольку цифровые инструменты могут поддерживать менее дорогостоящий сбор данных, чем очные методы, такие как интервью или личные опросы. Однако, независимо от методов сбора данных, рандомизированные оценки требуют значительного технического опыта и логистического планирования и не подходят для каждой программы, особенно для тех, которые работают в относительно небольших масштабах, поскольку рандомизированные оценки требуют большого количества единиц наблюдения для выявления статистически значимых различий. Эти подходы к оценке не следует использовать для оценки каждой программы. Другие методы оценки воздействия различаются тем, как они приближаются к рандомизации для измерения влияния вмешательств на наблюдаемые результаты, и могут быть более подходящими для определенных программ.

 

Paragraphs

Highlight


Полное руководство по использованию рандомизированных оценок для выводов о причинных зависимостях при разработке программ развития см. в разделе «Исследовательские ресурсы» J-PAL.

В 2020 году исследователи корпорации RAND в партнерстве с Learn2Discern компании IREX программа в Украине провела рандомизированное контрольное исследование для оценки воздействия российской кампании дезинформации и программных мер, которые включали маркировку контента и меры по повышению медиаграмотности. В эксперименте было показано, что российская пропаганда вызвала эмоциональную реакцию и подстегнула активность в социальных сетях среди ярых сторонников, но эти эффекты были смягчены при обозначения источника контента и показом получателям короткое видео о медиаграмотности.

Квазиэкспериментальный и неэкспериментальный подходы

Исследователи и оценщики могут использовать квазиэкспериментальныеили неэкспериментальные подходы, когда случайное отнесение к эксперимент и контролю нецелесообразно или неэтично. Как отмечает названия, эти исследовательские проекты пытаются приписать изменения в результатах вмешательствам, приближая случайное распределение на условия эксперимента и контроля через сравнений. В большинстве случаев это приближение включает сбор данных о населении, которое не участвовало в программе, но которое во многом похоже на участников программы. Возможно, что наиболее знакомый из этих методов для практиков DRG — это план до- и после-тестирования, при котором участники программы опрашиваются или тестируются по одному и тому же набору вопросов как до, так и после их участия в программе. Например, участники программы медиаграмотности могут пройти тест, в котором им предлагается различать истинные и ложные новости как до, так и после их участия в программе. В этом случае предварительный тест измеряет способность приблизительной «контрольной» или «сравнительной» группы, а последующий тест измеряет этот потенциал в «экспериментальной» группе участников, получивших программу. Любое увеличение способности различать истинные и ложные новости приписывается программе. Структурированные сравнительные тематические исследования и отслеживание процессов являются примерами неэкспериментальных планов, которые контролируют смешивающие факторы посредством сравнений между случаями или путем сравнения в пределах одного и того же случая во времени.  

Существует множество квазиэкспериментальных и наблюдательных методов исследования, доступных для оценки воздействия программ. Выбор этих инструментов для оценки воздействия программы зависит от имеющихся данных (или возможности собрать необходимые данные) и допущений, необходимых для определения надежных оценок воздействия программы. В данной таблице, полностью воспроизведенной с письменного согласия Лаборатории действий по борьбе с бедностью имени Абдула Латифа Джамиля, представлено меню этих вариантов с соответствующими требованиями к сбору данных и допущениями.

 

 МетодОписаниеКакие предположения требуются и насколько они требовательны?Необходимые данные
Рандомизация
Рандомизированная оценка / рандомизированное контрольное испытаниеИзмерить разницу в результатах между случайно назначенными участниками программы и не участвующими в ней после вступления программы в силу.На переменную результата влияет только участие в самой программе, а не назначение на участие в программе или само участие в рандомизированной оценке. Примерами таких смешивающих эффектов могут быть информационные эффекты, побочные эффекты или эффекты экспериментатора. Как и в случае с другими методами, размер выборки должен быть достаточно большим, чтобы две группы были статистически сопоставимы; разница в том, что размер выборки выбирается как часть плана исследования.Данные о результатах для случайно назначенных участников и неучастников (экспериментальная и контрольная группы).
Основные неэкспериментальные методы сравнения
До-ПослеИзмерить разницу в результатах для участников программы до и после вступления программы в силу.Нет других факторов (включая внешние события, желание самих участников измениться, изменившиеся экономические условия и т. д.), которые изменили измеряемый результат для участников с течением времени, кроме программы. В стабильной, статической среде и на коротких временных горизонтах предположение может быть верным, но это невозможно проверить. Как правило, предпочтительнее использование diff-in-diff или RDD (см. ниже).Данные о результатах, представляющих интерес для участников программы до и после вступления программы в силу.
 Простое различиеИзмерить различия в результатах между участниками программы после того, как программа вступила в силу, и другой группой, которая не участвовала в программе.Нет различий в результатах участников и не участников, за исключением участия в программе, и обе группы с одинаковой вероятностью вступили в программу до ее начала. Это сложное предположение. Неучастники могут не соответствовать критериям приемлемости, проживать в другом месте или просто не видеть ценность в программе (самоотбор). Любые такие факторы могут быть связаны с различиями в результатах независимо от участия в программе. Как правило, предпочтительнее использование diff-in-diff или RDD (см. ниже).Данные о результатах для участников программы, а также для другой группы неучастников после того, как программа вступила в силу.
 Различия в различияхИзмерить различия в результатах для участников программы до и после программы по сравнению с неучастниками.Любые другие факторы, которые могли повлиять на измеряемый результат с течением времени, одинаковы для участников и не участников, поэтому в отсутствие программы у них была бы одна и та же временная траектория. На коротких временных горизонтах и с достаточно похожими группами это предположение может быть правдоподобным. «Плацебо-тест» также позволяет сравнить временные тенденции в двух группах до начала программы. Однако, как и в случае с «простой различией», многие факторы, связанные с участием в программе, также могут быть связаны с изменениями в результатах с течением времени. Например, человек, ожидающий значительного улучшения в ближайшем будущем, может не участвовать в программе (самоотбор).Данные о результатах, представляющих интерес для участников программы, а также другой группы неучастников до начала программы и после того, как программа вступила в силу.
Дополнительные неэкспериментальныe методы
Многомерная регрессия/МНКПодход «простых различий» может быть — и на практике почти всегда — реализован с использованием многомерной регрессии. Это позволяет учитывать другие наблюдаемые факторы, которые также могут повлиять на результат, часто называемые «контрольными переменными» или «ковариатами». Регрессия отфильтровывает эффекты этих ковариат и измеряет различия в результатах между участниками и неучастниками, сохраняя при этом эффект ковариат постоянным.Помимо влияния контрольных переменных, нет никаких других различий между участниками и не участниками, которые влияют на измеряемый результат. Это означает, что любые ненаблюдаемые или неизмеряемые факторы, влияющие на результат, должны быть одинаковыми для участников и неучастников. Кроме того, программа никаким образом не может повлиять на контрольные переменные. В то время как добавление ковариат может облегчить некоторые опасения по поводу использования простых различий, ограниченность доступных данных на практике и ненаблюдаемые факторы означают, что метод имеет те же проблемы, что и простое различие (например, самоотбор).Данные о результатах для участников программы и для другой группы неучастников, а также «контрольные переменные» для обеих групп.
 Статистическое сопоставлениеТочное сопоставление: участники сопоставляются с неучастниками, идентичными по «сопоставимых переменных» для измерения различий в результатах. Сопоставление оценок склонности использует контрольные переменные для прогнозирования вероятности участия человека и использует эту прогнозируемую вероятность в качестве переменной сопоставления.Аналогично многомерной регрессии: нет различий между участниками и неучастниками с одинаковыми сопоставленными переменными, которые влияют на измеряемый результат. Ненаблюдаемые различия — основная проблема при точном сопоставлении. При сопоставлении оценок предрасположенности два человека с одинаковой оценкой могут сильно отличаться даже по наблюдаемым параметрам. Итак, предположения, необходимые чтобы сделать обоснованные выводы, довольно требовательны.Данные о результатах для участников программы и для другой группы неучастников, а также «сопоставленные переменные» для обеих групп.
 Дизайн прерывистости регрессии (ДПР)В проекте ДПР право на участие определяется по отсекающему значению в некотором порядке или ранжировании, например, по уровню дохода. Участники по одну сторону от значения отсечения сравниваются с неучастниками по другую сторону, и критерий приемлемости включается в качестве контрольной переменной (см. выше).Любая разница между людьми, находящимися ниже и выше границы (участники и не участники), исчезает все ближе и ближе к точке отсечения. Тщательно продуманный дизайн прерывности регрессии может быть эффективным. В дизайне используется элемент «случайности», который появляется, когда два человека, похожие друг на друга по порядку, оказываются по разные стороны от точки отсечения. Дизайн учитывает постоянные различия между ними с помощью контрольных переменных. Предположение о похожести этих людей может быть проверено с помощью наблюдаемых данных. Однако дизайн ограничивает сопоставимость участников дальше от границы.Данные о результатах для участников и неучастников программы, а также «упорядочивающая переменная» (также называемая «принуждающей переменной»).
 Инструментальные переменныеВ проекте используется «инструментальная переменная», которая является предиктором участия в программе. Затем метод сравнивает людей в соответствии с их прогнозируемым участием, а не фактическим участием.Инструментальная переменная не оказывает прямого влияния на переменную результата. Его действие проявляется только через индивидуальное участие в программе. Для правильного дизайна переменной инструмента требуется инструмент, который не влияет на переменную результата. Проблема заключается в том, что большинство факторов, влияющих на участие в программе людей, похожих друг на друга, также каким-то образом напрямую связаны с переменной результата. Это предположение можно проверить с помощью более чем одного инструмента.Данные о результатах для участников и не участников программы, а также «инструментальная переменная.

Мониторинг СМИ и анализ контента

Подходы мониторинга СМИ и контент-анализа обычно направлены на исследовательские вопросы о том, влияют ли, как и почему интервенции на взаимодействие аудитории с информацией и на характер или качество самой информации.  Например, программа факт-чекинг может выдвинуть гипотезу что исправление дезинформации должно привести к уменьшению взаимодействия аудитории с источниками дезинформации в социальных сетях, судя по просмотрам, лайкам, репостам или комментариям. 

Существует несколько инструментов, которые могут помочь практикам и исследователям DRG определить изменения в содержании СМИ. Контент-анализ — это качественный исследовательский подход, с помощью которого исследователи могут определять ключевые темы в письменных, аудио- или видеоматериалах, а также определять, меняются ли эти темы с течением времени. Так же, анализ тональности может помочь определить характер взглядов или убеждений, связанных с той или иной темой. 

Анализ контента и анализ тональности могут проводиться с человеческим или машинным кодированием и должны проводиться на нескольких этапах программного цикла в сочетании с другими оценочными исследованиями, чтобы оценить влияния проекта.  

 

Highlight


Обзор исследований: Квазиэкспериментальная оценка воздействия программы АЙРЕКС Learn2Discer

С октября 2015 по март 2016 года АЙРЕКС в сотрудничестве с Академией украинской прессы и организацией StopFake реализовал в Украине масштабную программу медиаграмотности Learn2Discern. В рамках программы АЙРЕКС провел квазиэкспериментальную оценку воздействия, используя статистическое сопоставление для сравнения участников программы и неучастников. Исследование показало, что участники программы: 

  • с вероятностью на 28% выше демонстрировали глубокие знания в области новостных СМИ
  • с вероятностью на 25% чаще проверяли несколько источников новостей
  • с вероятностью на 13% выше правильно определяли и критически проанализировали фейковую новость
  • вероятностью на 4% выше проявляли чувства в отношении источников новостей, к которым могли получить доступ.

Доноры и партнеры, реализующие программы по противодействию дезинформации, должны рассмотреть эти квазиэкспериментальные методы для оценки направления и величины воздействия программы на интересующие результаты, особенно в тех случаях, когда случайное распределение на лечение и контроль не представляется возможным.

 

Highlight


Полезные сведения о проекте: Beacon от IRI

Мероприятия проекта Beacon («Маяк») осуществляются на основе тщательных исследований общественного мнения и мониторинга СМИ, которые используются для оснащения членов сети Beacon инструментами и данными для проведения глубокого анализа злонамеренных нарративов и кампаний по дезинформации. В 2015 году проект Beacon разработал >versus< — инструмент мониторинга СМИ, используемый штатными экспертами и медиа-мониторами по всей Европе для отслеживания злонамеренных нарративов и кампаний дезинформации в онлайн медиа-пространстве, анализа их динамики и того, как они обсуждаются в сети.

Сетевой анализ

Сетевой анализ — это метод, позволяющий понять, как и почему структура взаимоотношений между участниками влияет на интересующий результат. Сетевой анализ — это особенно эффективный метод исследования для противодействия программам дезинформации, поскольку он позволяет аналитикам визуализировать и понять, как информация распространяется через онлайн-сети, включая платформы социальных сетей, форумы и другие цифровые сообщества. Синтезируя информацию о количестве участников, частоте взаимодействия между участниками, качестве или интенсивности взаимодействия и структуре взаимоотношений, сетевой анализ может помочь исследователям и практикам определить основные каналы распространения дезинформации, направление передачи дезинформации или информации, кластеры, обозначающие отдельные информационные экосистемы и если участие или усиление подлинным или искусственным. В очереди, сетевые показатели могут помочь информировать о дизайне, содержании и нацеливании программных действий . До той степени, в которой аналитики могут собирать сетевые данные с течением времени, сетевой анализ сети также может быть использован для мониторинга и оценки программ.

Инструменты сбора данных для анализа сети зависят от характера сети в целом и сетевой платформы в особенности. Сетевой анализ может проводиться в сетях оффлайн, там где исследователи могут собирать данные через стандартные методы опросов лицом к лицу, по телефону, компьютеру или SMS. В этих случаях исследователи разрисовали сетей оффлайн сообществ с помощью инструментов опроса, которые просили респондентов перечислить лиц или организации, обладающие влиянием или к которым они могут обратиться для решения конкретной проблемы. Затем исследователи могут картировать сетей путем агрегирования и кодирования ответов всех респондентов сообщества. Таким образом, исследователи могут идентифицировать влиятельных лиц в сообществе, которые могут являться узлами для распространения информации, особенно в условиях, когда люди в значительной степени полагаются на семью и друзей в получении новостей или информации. 

Однако в зависимости от API и условий предоставления услуг, цифровые платформы, такие как социальные сети, могут снизить затраты на сбор сетевых данных. С помощью специальных инструментов, включая программное обеспечение для анализа социальных сетей, исследователи могут анализировать и визуализировать взаимосвязи между пользователями, включая вовлеченность в контент, отношения следования, а также лайки или обмен. Эти инструменты могут дать практикам понимание структуры онлайновых сетей и, в сочетании с инструментами анализа контента, того, как структура сети взаимодействует с определенными типами контента.

Highlight


Полезные сведения об инструменте: VAWIE — онлайн инструмент анализа социальных сетей от IFES/NDI

Информационно-коммуникационные технологии (ИКТ) создали новые возможности для насилия в отношении женщин на выборах (VAWIE), которые усугубляются анонимностью и масштабами, которые обеспечивают онлайн-платформы СМИ. Новый инструмент Агентства США по международному развитию (АМР США), Международного фонда избирательных систем (IFES) и Национального демократического института (NDI) предлагает адаптируемый метод для измерения гендерных аспектов насилия в Интернете и понимания движущих сил этого насилия. Инструмент анализа социальных медиа онлайн VAWIE может быть использован представителями различных профессий, которые обеспокоены ненавистническими и насильственными высказываниями в сети и стремятся положить им конец.

 

Highlight


Полезные сведения о программе/инструменте: Аналитика данных для мониторинга социальных сетей от NDI

NDI стремится расширить возможности партнеров по использованию технологий для укрепления демократии. Это означает использование потенциала технологии для обеспечения целостности информации и помощи в построении инклюзивной демократии; при одновременном снижении вреда, наносимого дезинформацией, кампаниями влияния в Интернете, разжиганием ненависти, преследованиями и насилием. 

По этой причине NDI разработал для активистов и исследователей демократии руководство «Аналитика данных для мониторинга социальных сетей». 

Это новое руководство призвано помочь практикам демократии лучше понять тенденции, содержание, данные и медиа социальных сетей. Обмениваясь накопленным опытом и передовой практикой в рамках нашей глобальной сети, мы надеемся расширить возможности наших партнеров в обеспечении работы демократии в Интернете, помогая им:

• сотрудничать с местными, национальными или международными партнерами;

• понимать различные методы сбора данных;

• максимально использовать картографию и визуализацию данных;

• анализировать онлайн-экосистему; 

• обнаруживать вредоносный или манипуляционный контент и его источник; 

• понимать доступные инструменты для всех аспектов мониторинга социальных сетей; а также

• уметь отвечать с привлечением данных, методов, исследований и прочих инструментов через социальные сети. 

 

Highlight


Полезные сведения о программе: Обнаружение цифровых отпечатков: отслеживание дезинформации, распространяемой Китаем на Тайване.

В июне 2019 года, взяв за точку отсчета местные выборы 2018 года, Graphika, Лаборатория цифрового интеллекта Института будущего (IFTF) и Международный республиканский институт (IRI) приступили к исследовательскому проекту по всестороннему изучению информационной онлайн-среды в преддверии, во время и после выборов в Тайване в январе 2020 года, с учетом прецедентов 2018 года и с учетом возможных аналогичных инцидентов в течение этого избирательного цикла. Graphika и DigIntel отслеживали и собирали данные из Facebook и Twitter, а также расследовали версии на нескольких других платформах социальных сетей, включая Instagram, LINE, PTT и YouTube. IRI поддержал несколько тайваньских организаций, которые архивировали и анализировали данные с контент-ферм и самых популярных на острове платформ социальных сетей. Исследовательская группа регулярно посещала Тайвань, в том числе во время выборов, чтобы поговорить с лидерами гражданского общества, учеными, журналистами, технологическими компаниями, правительственными чиновниками, законодателями, Центральной избирательной комиссией и политическими партиями. Цель заключалась в том, чтобы понять тактику, векторы и нарративы онлайн-дезинформации, использованные во время политического события, имеющего критическое значение для стратегических интересов Пекина. Инвестируя в организации, занимающиеся расследованием и борьбой с дезинформацией на китайском языке и операциями влияния КПК, они надеялись увеличить потенциал глобального сообщества исследователей дезинформации для отслеживания и разоблачения этой новой угрозы информационной и демократической честности.

 
Footnotes
  1. Некоторые исследователи выступают против использования дескриптора «квазиэкспериментальный», отмечая, что либо исследователь контролирует распределение единиц на эксперимент или контроль, либо не контролирует. Мы сохраняем этот термин, учитывая его общепринятое использование для обозначения таких методов, как предварительный или пост-дизайн, прерывность регрессии, инструментальные переменные, разница в различиях и сопоставление, но включаем квази- и неэкспериментальные методы в одну категорию, признавая логику, согласно которой каждый из них подразумевает методы контроля сбивающих факторов посредством различных типов сравнений.  
  2. В этой аналогии одни и те же люди составляют как экспериментальную, так и контрольную группы, и существует множество причин, не связанных с вмешательством, включая отбор участников, которые могут правдоподобно объяснить изменения в результатах между предварительным и последующим тестированием. Например, программа медиаграмотности может рекламироваться потенциальным участникам, которые каким-либо образом связаны с организациями-исполнителями и поэтому могут быть более состоятельными или более образованными, чем среднестатистический гражданин. В этом случае некоторые характеристики участников (например, образование или способность к обучению) могут привести к повышению тестовых баллов до и после тестирования, независимо от содержания программы. В этом случае схема предварительного/послетестового тестирования может привести к тому, что исследователи или практики переоценят фактический эффект программы.
  3. Например, см. Wibbels, Erik. «Социальные основы децентрализованного управления: Сети, технологии и будущее социальной подотчетности» (The Social Underpinnings of Decentralized Governance: Networks, Technology, and the Future of Social Accountability.) В «Децентрализованное управление и подотчетность: Академические исследования и будущее донорского программирования (Decentralized Governance and Accountability: Academic Research and the Future of Donor Programming), 14-40. Нью-Йорк: Издательство Кембриджского университета, 2019.