А б дизайн: ab | Архитектурное бюро «Дизайн-АБ»

Содержание

А/Б тестирование — какой дизайн, текст более эффективный

А/Б тестирование — это способ узнать, какой дизайн сайта, описание, секция или форма дают лучшие результаты конверсии. 

КАК ЭТО РАБОТАЕТ

Допустим, что у вас есть сайт по адресу https://example.com/ и еженедельно его посещают 200 человек из них 20 оставляют заявки. Тогда можно запустить А/Б тест и каждому новому посетителю по очереди показывать разные варианты страницы.

На варианта А используется одно описание и картинки, на варианте Б — другое описание и картинки.

Например:

  • Посетитель 1 увидит вариант А;

  • Посетитель 2 увидит вариант Б;

  • Посетитель 3 увидит вариант А;

  • Посетитель 4 увидит вариант Б;

  • И так далее.

В результате проведения тестирования вы можете определить, какой вариант посетителям нравится больше.

Например, через неделю проведения тестирования мы получили такие данные:

  • Вариант А собрал 100 поетителей и 10 заявок;

  • Вариант Б — 100 посетителей и 20 заявок;

  • В результате у нас получилось 200 посетителей и 30 заявок.

На основе этих данных финальным вариантом страницы выберем вариант Б, так как он приносит больше заявок.

КАК ВЫПОЛНИТЬ НАСТРОЙКУ

1. Перейдите в личный кабинет и выберите страницу, для которой будет запущен А/Б тест.

2. Наведите указатель мыши на троеточие у нужной страницы и выберите ”Запустить А/Б тест”.

Вариантом А будет текущая страница, для варианта B вы можете выбрать любую из страниц сайта или ничего не выбирать, тогда она будет создана на основе текущей и вы сможете ее изменить:


3. Выберите нужный вариант и перейдите в редактор для его изменения. Переключиться между вариантами можно и в самом редакторе.

4. Измените содержимое выбранного варианта и опубликуйте его. Изменять можно все что-угодно, так как изменения внесенные на варианте Б не повлияют на вариант А и наоборот.

КАК ЗАВЕРШИТЬ А/Б ТЕСТИРОВАНИЕ

Для завершения А/Б тестирования нажмите на кнопку ”Завершить А/Б тест”, она будет отображаться вместо кнопки ”Запустить А/Б тест”. После чего будет показано окно с результатами тестирования и возможностью выбрать финальный вариант.

КАК ПРОВЕРИТЬ, ЧТО РАЗНЫМ ПОСЕТИТЕЛЯМ ДЕЙСТВИТЕЛЬНО ПОКАЗЫВАЮТСЯ РАЗНЫЕ ВАРИАНТЫ

1. Откройте страницу сайта в режиме Инкогнито (Приватное окно), отобразится первый вариант;

2. Закройте приватное окно;

3. Снова откройте сайт в режиме Инкогнито, отобразится второй вариант.

Если каждый раз открывается один и тот же вариант — значит второй вариант не был опубликован в редакторе.

Открыть одновременно оба варианта можно выполнив открытие страницы в обычном режиме работы браузера и второй раз в режиме Инкогнито.


Пример страницы с запущенным А/Б тестированием.

ДОПОЛНИТЕЛЬНЫЕ МАТЕРИАЛЫ

Андрей Быстров — дизайнер, архитектор, основатель и руководитель студии «Архитектурное бюро Дизайн-АБ»

Я профессионально работаю с интерьерами много лет. Окончил Московский архитектурный институт (МАрхИ). Стажировался в Академии Искусств в Германии. Там же работал в архитектурном бюро «Architectural studio Daniel Libeskind». Начал частную архитектурную практику в 2002 году. 

Более 15 лет назад основал студию «Архитектурное бюро Дизайн-АБ». Мы разработали и реализовали более 100 проектов: от интерьера квартир до архитектурного проектирования загородных домов. Вы можете познакомиться с нашими работами в портфолио, и они все расскажут лучше любых слов.

Многолетний опыт в любимой работе помог нашей сплоченной команде определить для себя основные принципы, которые высоко ценят наши клиенты:  

  • Функциональные планировочные решения: важно, чтобы интерьер был не только красивым, но и удобным для всей семьи;

  • Эксклюзивный дизайн-проект: в нашей работе нет стереотипов и готовых шаблонов: каждый интерьер уникален и требует творческого подхода;

  • Гибкие условия работы: мы готовы проконсультировать вас и встретиться с вами в максимально удобное время;

  • Открытое ценообразование: мы назначаем конкретные цены на конкретные услуги, прописываем все это в договоре и ничего не меняем в ходе работы. Не навязываем никаких ненужных работ. Предоставляем заказчику возможность скорректировать стоимость проекта за счет отказа от невостребованных услуг.   

            Наша задача — воплощать ваши мечты. Будем рады сотрудничеству!

Услуги:

Дизайн-проект интерьера:

1.  Знакомство с дизайнером на объекте, обсуждение дальнейшего сотрудничества

2.  Составление технического задания, заключение договора

3.  Обмеры и фотофиксация объекта

4.  Разработка и согласование планировочного решения

5.  Разработка и согласование стилистического решения (коллаж, 3D визуализация)

6.  Подбор отделочных материалов, мебели, светильников

7.  Выполнение рабочих чертежей

8.  Передача дизайн-проекта заказчику

Дизайн – отзывы, услуги, стоимость и примеры работ в каталоге Archiprofi.ru

Дизайн

Стилистика: Современная

Авторский надзор

Стоимость: договорная

договорная

Декорирование

Стоимость: договорная

договорная

Консультирование

Стоимость: договорная

договорная

Рабочая документация

Стоимость: договорная

договорная

Разработка концепции

Стоимость: договорная

договорная

Создание дизайн-проекта

Стоимость: договорная

договорная

Дизайн мебели

 

Выбор материалов, фурнитуры с учетом технологических возможностей производства

Стоимость: договорная

договорная

Выбор цветовой гаммы

Стоимость: договорная

договорная

Выполнение чертежей изделия, конструкций узлов и соединений

Стоимость: договорная

договорная

Разработка дизайна проектируемого изделия с учетом его функциональности и новизны форм

Стоимость: договорная

договорная

Создание макета изделия

Стоимость: договорная

договорная

Дизайн общественных интерьеров

 

Визуализация 3D проекта

Стоимость: договорная

договорная

Осуществление авторского надзора за исполнением

Стоимость: договорная

договорная

Подбор отделочных материалов, материалов изготовления и расчет сметы

Стоимость: договорная

договорная

Разработка необходимых технических чертежей

Стоимость: договорная

договорная

Составление дизайн-проектов торговых центров, магазинов, офисов, кафе, ресторанов, кинотеатров, салонов и экстерьеров общественного транспорта.

Стоимость: договорная

договорная

Дизайн предметов и элементов интерьера

 

Авторский надзор за воплощением решений элемента, исходя из утвержденного проекта.

Стоимость: договорная

договорная

Изготовление изделия в виде макета.

Стоимость: договорная

договорная

Изделия в трехмерном изображении в виде эскизных работ с различными вариантами и стилистическими предложениями.

Стоимость: договорная

договорная

Обмерные чертежи архитектурного пространства

Стоимость: договорная

договорная

Трехмерное цветовое изображение предмета на фоне архитектурного пространства.

Стоимость: договорная

договорная

Дизайн производственных интерьеров

 

План электромонтажной разводки и размещения осветительных приборов

Стоимость: договорная

договорная

Создание рабочих чертежей, с учетом габаритов оборудования, выбранных отделочных материалов, мебели

Стоимость: договорная

договорная

Составление дизайн-проекта интерьера производственных помещений, включая размещение машин и оборудования

Стоимость: договорная

договорная

Схема водоснабжения и канализации

Стоимость: договорная

договорная

Образовательные программы | ВГТУ

Бакалавриат академический Обучение ведется на русском языке Контрактные места

Краткое содержание образовательной программы

Цель реализации профиля «Промышленный дизайн» — это развитие у студентов личностных качеств, а также формирование общекультурных универсальных (общенаучных, социально-личностных, инструментальных), общепрофессиональных и профессиональных компетенций в области выполнения комплексных дизайн-проектов, изделий и систем, предметных и информационных комплексов на основе методики ведения проектно-художественной деятельности; выполнения инженерного конструирования; владения технологиями изготовления объектов дизайна и макетирования; владения методами эргономики и антропометрии; знания основ промышленного производства; владения современными информационными технологиями для создания графических образов, проектной документации, компьютерного моделирования в соответствии с требованиями ФГОС ВО по данному направлению подготовки.

Достижение цели ориентировано на решение проблем, связанных с индивидуальным и социальным аспектом применения продукта, когда его форма и внутреннее содержание зависят от области его применения и особенностями процесса его изготовления. Промышленный дизайн начинается с концептуальной проработки внешнего вида изделия и его функционала и заканчивается информационной моделью для производства. Каждый продукт адресован не только определенному сегменту рынка, но и должен быть социализирован в обществе, имеющем свои национальные особенности. Именно поэтому промышленный дизайн отвечает за внешний вид, эргономику, безопасность и технологичность.

 

Сферой деятельности выпускника являются: 

В соответствии с ФГОС ВО областью и объектами профессиональной деятельности бакалавров по этому профилю являются творческая деятельность по формированию эстетически выразительной предметно-пространственной среды; предметные системы и комплексы; информационное пространство, интегрирующее проектно-художественную и научно-педагогическую деятельность, направленную на создание и совершенствование конкурентоспособной отечественной продукции, развитие экономики, повышение уровня культуры и качества жизни населения.

Деятельность ВГТУ в сфере подготовки бакалавров по профилю подготовки «Промышленный дизайн» направлена на решение приоритетных программ РФ, имеющих своей целью формирование современного конкурентоспособного имиджа отечественных производителей.

Основные дисциплины

— История промышленного дизайна, техники и технологии

— Дизайн в промышленности

— Технический рисунок

— Основы композиции

— Основы дизайн-проектирования конструкций

— Основы трехмерного полигонального моделирования

— Форматы графических данных

— Аддитивные технологии

— Web-дизайн

— Фото-дизайн

— САПР и информационные технологии в дизайне

 

Образовательный процесс обеспечен следующим лицензионным программным обеспечением:

— Office Standard 2019 Russian OLP NL AcademicEdition

— Acrobat Pro 2017 Multiple Platforms Russian AOO License TLP

— 3ds Max 2019

— Alias AutoStudio

— AutoCAD/ AutoCAD Mechanical

— Fusion 360

— Inventor Professional/ Inventor CAM – Ultimate

 

Подготовку бакалавров по профилю «Промышленный дизайн» ведет профессорско-преподавательский состав кафедры.

В подготовке бакалавров участвуют 1 профессор, доктор технических наук и 4 кандидата технических наук.

 

Обучение бакалавров ведут:

профессор д.т.н. Кузовкин А.В.;

доценты, к.т.н.: Семыкин В.Н., Зеленина А.Н.;

кандидаты технических наук: Свиридов Д.А., Суворов А.П.

 

Места практик и трудоустройство

Ознакомительную и производственную практику студенты проходят на предприятиях города и области, внедряющих у себя элементы промышленного дизайна и проектной деятельности: ЗАО «Орбита», ООО «Сафиб», Творческая мастерская «Энвио», АО “Центр аддитивных технологий” и другие.

Выпускники востребованы на предприятиях, в конструкторских отделах и дизайн-бюро по производству и изготовлению изделий и конструкций широкого спектра, способны самостоятельно выполнять проекты по разработке внешнего вида и функционального назначения промышленных объектов и информационной среды. Наши выпускники работают на АО “Центр аддитивных технологий”, AVA FILMS WEDDINGS, Центр инженерных компетенций детей и молодежи «Кванториум» и других.

Вице-губернатор Владимир Княгинин: Количество занятых в креативной экономике Петербурга должно составлять порядка 10% населения

Сегодня в Петербурге определились финалисты городского конкурса молодежного дизайна и искусства St. Petersburg Young Design. 

Участие в конкурсе, стартовавшем 16 июня, приняли более 800 студентов и выпускников трех последних лет всех творческих вузов города. Они соревновались в создании проектов по 10 номинациям в различных отраслях дизайна. Партнерами конкурса выступили «Газпромнефть», «Биокад», Банк «Россия» и другие крупные компании-заказчики, как из экономической сферы, так и из области искусства. 

Участникам конкурса было предложено разработать проект благоустройства пешеходной набережной у Парка 300-летия Петербурга, дизайн имиджевой концепции продвижения города на сувенирной продукции, создать сказочный арт-объект в общественном пространстве Сада Бенуа, разработать функциональную упаковку для лекарств, необходимых при лечении онкологических заболеваний, дизайн спортивной одежды для регбийной команды, создать новые формы работы с промышленными и переработанными материалами, а также реализовать свои творческие замыслы в других направлениях.

По итогам 1-го этапа конкурсной комиссией были отобраны 90 проектов, которые были представлены в ходе мероприятия. Их авторам предстоит продолжить работу над реализацией проектов при участии менторов и партнеров конкурса. 

Финалистов конкурса приветствовали вице-губернатор Владимир Княгинин, генеральный директор Фонда поддержки инноваций и молодежных инициатив Санкт‑Петербурга Владимир Салкуцан, ректор Академии имени Штиглица Анна Кислицына, а также представители компаний-заказчиков и кураторы проектов.

Владимир Княгинин отметил, что в нашем городе обучается порядка 7,5 тысяч студентов вузов по различным дизайнерским направлениям. И с каждым годом их востребованность растет.  При этом, по мнению вице-губернатора, количество занятых в креативной экономике таких городов, как Петербург, должно составлять порядка 10% населения. Для того, чтобы достичь этого показателя, разработана городская программа поддержки дизайна, начиная от дизайн-образования до производства современных востребованных продуктов, обеспечивающих рост экономики региона.  

«Конкурс, который мы проводим совместно с вузами города и компаниями-партнерами, – это реальная помощь студентам сделать первый шаг в профессии. Наша ключевая задача обеспечить взаимодействие производителей и молодых дизайнеров. Помимо возможности проявить свои творческие способности, студенты получают необходимые навыки в создании собственного продукта и выведении оформленного результата на рынок. В этой работе принимают участие лучшие кураторы и профессионалы нашего города», — подчеркнул Владимир Княгинин. 

Генеральный директор ФПИМИ Сергей Салкуцан сообщил, что уже в следующем году конкурс планируется вывести на федеральный уровень. 

«Мы проводим конкурс молодых дизайнеров совместно с Академией имени Штиглица уже во второй раз. В этом году, благодаря, в том числе, поддержке Фонда президентских грантов, мы смогли масштабировать его на весь город. Участие в конкурсе принимают уже 16 профильных университетов. А в числе компаний-партнеров не только петербургские, но и московские заказчики», — отметил соорганизатор конкурса.  

Он обратил внимание на важную роль образовательной составляющей его проведения и развития новых технологий в различных сферах дизайна. 

Для тех участников, которые не смогли выйти в финал, будут предложены дополнительные образовательные программы, а также возможность участия в спецпроектах конкурса на базе специализированных мастерских. 

Один из них будет реализован совместно с Музеем Фаберже – студенты смогут проявить свои творческие идеи в работе над новой интерпретацией пасхальных яиц Фаберже с применением нетрадиционных форм и материалов.

Победители конкурса St. Petersburg Yong Design будут объявлены в декабре. Они получат денежные призы и возможность реализовать свои творческие проекты совместно с индустриальными партнерами. 

В Сочи 28-29 октября пройдет фестиваль дизайна Art Weekend Sochi 2021

28-29 октября, в Сочи в Sea Galaxy Hotel Congress & Spa 4* пройдет фестиваль дизайна Art Weekend Sochi 2021, ставший первым на Южном побережье России.

ВАЖНЫЕ ТЕМЫ
О главном: Конфликт «нового» и «вечного» в архитектуре городов и дизайне интерьеров.
О важном: Инструменты эффективного развития курортных территорий.
О спорном: Скандальный батл. Текстильные декораторы VS Дизайнеры интерьера.
+++ А ЕЩЁ: тренды, дискуссии, workshop, лекции, полезные знакомства и связи.

ВПЕРВЫЕ В РОССИИ невероятные эстеты, философы и мэтры дизайна Fabrice Ausset (Франция) и Andrea Desimone (Италия). В команде с ними выступят более 20 спикеров из России.

Всё креативное сообщество в индустрии дизайна соберётся в Сочи для решения важных вопросов взаимодействия тех, кто создаёт комфортные современные пространства в масштабах целых городов и разнообразных интерьеров. Архитекторы, дизайнеры и стилисты, текстильные декораторы, поставщики, застройщики, производители из Москвы, Санкт-Петербурга, Краснодарского края, Ростова-на-Дону, Центрального ФО, Сибирского ФО, Уральского ФО приедут на самый яркий фестиваль дизайна в Сочи.

ДИСКУССИИ И ВЫСТУПЛЕНИЯ

  • Современная архитектура и сохранение самобытного облика города.
  • Грандиозные планы города Сочи по развитию курортных территорий.
  • Коммуникации в бизнесе. Творчество и коммерция.
  • Как вы это продаете? Или создаю то, что хочу!
  • Тенденции европейского дизайна и др.
  • Неформальные диалоги на After Party каждый день и специальная премия от журнала «Собака ru».

Первый Фестиваль прошел в 2019 году. Это было круто, стильно, интересно и полезно. Art Weekend 2021 обещает стать самой масштабной творческой тусовкой на берегу Чёрного моря!

Instagram:instagram.com/aw.sochi
Программа и билеты: art-weekend-sochi.timepad.ru/event/1759700

Организационный комитет:
Локтионова Ольга – AW project, руководитель DETAILS&KADO Sochi
Артём Савченко – AW project, издатель журнала Собака.ru (Сочи\Краснодар)
Гудина Ольга – AW project, региональный директор компании SWG
Геннадий Носков – генеральный директор текстильной компании KADO
Ольга Шебзухова – генеральный директор ООО «Новые горизонты»
Есения Семипядная – президент Ассоциации СТДД
Елена Куликова – директор агентства EVENTBEST
Александра Мирошникова — руководитель PR-комитета AW, управляющий партнер ООО «Центр эффективной рекламы», Президент Клуба маркетологов Сочи

Внутренняя экосистема сервисов и до мелочей продуманный дизайн — фоторепортаж из киевского офиса Wix

16 Сентября, 2021, 15:01

1609

Wix — это израильская компания, которая занимается разработкой глобальной платформы для ведения бизнеса онлайн. На украинский рынок она вышла в 2011 году, открыв офис в Днепре. В 2016 году представительство Wix появилось в небольшом столичном хабе на Подоле и насчитывало не более 20 специалистов. Вскоре к компании начали присоединяться инжиниринговые команды, и им стало тесно — киевский офис перебрался в многоэтажный бизнес-центр. Сейчас в нем более 800 специалистов, которые уже занимают два здания на Саксаганского.

Редакция AIN.UА побывала на обеих локациях Wix и рассказывает, как там все устроено.

Фото в материале: Оля Закревская / AIN.UA

Концепция офиса

Киевский офис Wix находится в бизнес-центре «Саксаганский». Несмотря на то, что компания занимает два здания и площади 7200 кв.м, визуально это распознать невозможно — нет ни указателей по дороге, ни таблички с характерным шрифтом Wix на фасаде, ни яркой неоновой вывески на стенах фойе, которые ожидаешь увидеть. 

В основе концепции киевского офиса — customer journey, — рассказывает Татьяна Зубец, Head of Operations. Также, как и в маркетинге, мы продумываем journey наших специалистов. Человек пришел утром. С каким настроением? Как мы можем сделать ему хорошее настроение на весь день?

Стремление создавать положительный опыт команд Wix в процессе их взаимодействия с компанией действительно считывается на каждом шагу и с каждой детали пространства. Поэтому все самое интересное начинается не в фойе, а после выхода из лифта.

Экспресс-тестирование на COVID-19 и передвижение по отпечатку пальца

Первым делом нас провели в лабораторию, чтобы сделать экспресс-анализ на COVID-19. В Wix это не просто мера предосторожности и безопасности, без наличия негативного результата специалисты компании не смогут попасть в офис и передвигаться по нему. 

Каждый специалист компании должен проходить экспресс-тестирование раз на 72 часа. Предварительно в базу данных вносятся его отпечатки пальцев, при помощи которых открываются входные двери в здании. Когда человек сдал тест, он должен подождать 15 минут в специально отведенном зале, после чего ему приходит сообщение с результатом. Если тест негативный, специалисту будут буквально открыты все двери.

Такую пропускную систему, адаптированную к карантинной реальности, создали разработчики компании и запустили в апреле 2021 года.

Пространство для отдыха и релакса Wix Whaaat

Концепция этого пространства — из Израиля, — рассказывает Татьяна Зубец. Все началось с нескольких вопросов: «Что могло бы нести добавочную стоимость для специалистов? Как они могли бы переключаться в процессе работы?» Ответом стал Wix Whaaat в Тель-Авиве. Весной 2020 года такое пространство появилось и в Киеве.

Его дизайном, как и дизайном всех помещений офиса занималась in-house команда. По словам Зубец, дизайн Wix — это часть ДНК Wix. «Как сайты на платформе Wix, интерьер должен быть профессиональным, целостным и веселым. У нас есть основная палитра цветов для сайтов, которую команда адаптирует к интерьеру с учетом локальной специфики офиса», — говорит она. Но все же главная задача команды дизайнеров — делать пространства комфортными, создавать неформальную атмосферу, в которой бы хотелось творить и развиваться.

Отдельного внимания в Wix Whaaat заслуживают детали: барная стойка в виде «хипстерского автобуса», на заполучение и оформление которого, по словам Зубец, ушли месяцы, столы-полусферы, кресло-качель, круглая двухэтажная мягкая зона, неон и много зелени — все это тщательно продумывалось дизайнерами.

В Wix Whaaat специалисты могут не только выпить кофе, но и воспользоваться различными сервисами — здесь есть салон красоты и массажный кабинет. Сейчас они не работают полноценно в связи с ограничениями карантина. К примеру, салон открыт только для самообслуживания, но вскоре возобновятся все сервисы.

Также есть магазин, в котором продаются различные приятные и необходимые мелочи, включительно с кормом и мисками для собак. Офис Wix — dog friendly.

Рабочие пространства и процессы

Киевское представительство Wix отражает главный офис компании в Тель-Авиве с его независимой инфраструктурой — все бизнес и операционные процессы в нем происходят автономно. В столице Украины располагается один из крупнейших офисов технической поддержки Wix, а также один из четырех инжиниринг-хабов компании — они также есть в Тель-Авиве, Беер-Шеве и Берлине.

Украинские команды работают на ключевыми продуктами Wix: платежной системой Payments by Wix, e-commerce платформой Wix Stores и конструктором и редактором сайтов Editor X.

Рабочие пространства организованы по принципу open space — они просторные и светлые, от коридоров отделены стеклянными перегородками. На каждом этаже есть большие кухни и coffee points.

В офисе — 23 переговорные комнаты, которыми может воспользоваться каждый специалист, предварительно забронировав подходящую через Google Календарь. Большие переговорки, в которых помещаются 10 человек, оснащены всем необходимым оборудованием для видеоконференций. Для тех, кому необходимо сосредоточиться или провести важный созвон, есть единичные Skype rooms — их 24.

Наиболее популярные переговорки сейчас — Феофания и Русановка. В них на созвонах ты всегда такой красивый благодаря цветовым решениям интерьера — зеленому и розовому, здесь всегда очередь, — смеется Дарья Тхоревская, Engineering Brand and Community Manager.

Нам удалось увидеть также Борщаговку, Троещину, Теремки, Буковину и Галичину. Названия для комнат предлагают и выбирают сами специалисты Wix путем голосования — это может быть историческая местность в Киеве, район столицы или регион Украины.

Чтобы не заблудиться в офисной географии, на стенах размещены таблички с указаниями направлений. Пока их всего несколько, но вскоре они должны появится на всех этажах.

Спортивный зал, музыкальная студия и стол с Lego

В Wix есть тренажерный зал, в котором до карантина проводились групповые занятия по боксу, йоге, стретчингу. Во время карантина они переместились в онлайн, сейчас — проходят на свежем воздухе, в парке.

Сразу возле зала есть душ и раздевалка, правда, одна. Но к ее использованию в компании подошли креативно — на двери есть табличка с надписью «Who run the world?», ответ нужно выбрать учитывая то, кто занимает раздевалку в конкретный момент.

На одном из этажей есть просторная лаунж-зона, куда команды могут прийти, поиграть в настольный футбол или теннис. Особенность этого пространства в том, что оно легко трансформируется в зону для конференций или внутренних мероприятий компании.

В Wix также есть музыкальная комната, рядом с ней — большой стол с Lego.

проектов исследования одного предмета — методы исследования в психологии — 2-е канадское издание

  1. Опишите основные элементы дизайна исследования одного предмета.
  2. Создавайте простые исследования по одному предмету, используя обратный и множественный базовый план.
  3. Объясните, как дизайн одного предмета исследования решает проблему внутренней валидности.
  4. Интерпретируйте результаты простых исследований по одному предмету, основанные на визуальном просмотре графических данных.

Прежде чем рассматривать какой-либо конкретный дизайн исследования одного предмета, будет полезно рассмотреть некоторые особенности, которые являются общими для большинства из них.Многие из этих функций проиллюстрированы на рисунке 10.2, на котором показаны результаты типового исследования одного предмета. Во-первых, зависимая переменная (представленная на оси y графика) многократно измеряется с течением времени (представленная осью x ) через равные промежутки времени. Во-вторых, исследование разделено на отдельные фазы, и участник тестируется при одном условии на фазу. Условия часто обозначаются заглавными буквами: A, B, C и так далее. Таким образом, на рис. 10.2 представлен план, в котором участник сначала был протестирован в одном условии (A), затем испытан в другом условии (B) и, наконец, повторно протестирован в исходном состоянии (A).(Это называется реверсивным дизайном и будет обсуждаться более подробно в ближайшее время.)

Рис. 10.2 Результаты типового исследования с одним субъектом, иллюстрирующие несколько принципов исследования с одним субъектом

Другой важный аспект исследования с одним субъектом состоит в том, что переход от одного состояния к другому обычно не происходит по прошествии фиксированного промежутка времени или количества попыток. наблюдения. Напротив, это зависит от поведения участника. В частности, исследователь ждет, пока поведение участника в одном условии не станет достаточно последовательным от наблюдения к наблюдению, прежде чем изменить условия.Иногда это называют стратегией устойчивого состояния (Сидман, 1960). Идея состоит в том, что, когда зависимая переменная достигла устойчивого состояния, любое изменение условий будет относительно легко обнаружить. Напомним, что мы столкнулись с этим же принципом при более общем обсуждении экспериментальных исследований. Влияние независимой переменной легче обнаружить, когда «шум» в данных сведен к минимуму.

Самым базовым дизайном исследования одного предмета является обратный дизайн, также называемый ABA-дизайном .На первом этапе A устанавливается базовый уровень для зависимой переменной. Это уровень ответа до введения какого-либо лечения, и поэтому исходная фаза является своего рода условием контроля. Когда достигается устойчивое состояние ответа, начинается фаза B, когда исследователь вводит лечение. Может быть период адаптации к лечению, в течение которого интересующее поведение становится более изменчивым и начинает увеличиваться или уменьшаться. Опять же, исследователь ждет, пока эта зависимая переменная не достигнет устойчивого состояния, чтобы было ясно, изменилась ли она и насколько сильно.Наконец, исследователь отменяет лечение и снова ждет, пока зависимая переменная не достигнет устойчивого состояния. Этот базовый реверсивный дизайн также может быть расширен за счет повторного введения лечения (ABAB), повторного возврата к исходному уровню (ABABA) и т. Д.

Исследование Холла и его коллег было реверсивным дизайном ABAB. Рисунок 10.3 аппроксимирует данные для Робби. Процент времени, которое он потратил на изучение (зависимая переменная), был низким во время первой базовой фазы, увеличивался во время первой фазы лечения, пока не выровнялся, уменьшался во время второй базовой фазы и снова увеличивался во время второй фазы лечения.

Рис. 10.3. Аппроксимация результатов для участника Холла и его коллег Робби в их реверсивном дизайне ABAB [длинное описание]

Почему реверсирование — устранение лечения — считается необходимым в этом типе дизайна? Зачем, например, использовать дизайн ABA, а не более простой дизайн AB? Обратите внимание, что дизайн AB — это, по сути, дизайн с прерывистым временным рядом, применяемый к отдельному участнику. Напомним, что одна проблема с этим дизайном заключается в том, что если зависимая переменная изменяется после введения лечения, не всегда ясно, что именно обработка была ответственна за изменение.Возможно, что что-то еще изменилось примерно в то же время, и эта посторонняя переменная ответственна за изменение зависимой переменной. Но если зависимая переменная изменяется с введением лечения, а затем изменяется с на с отменой лечения (при условии, что лечение не создает постоянного эффекта), гораздо яснее, что лечение (и удаление лечения ) является причиной. Другими словами, переворот значительно увеличивает внутреннюю валидность исследования.

Существуют близкие родственники основного обратного дизайна, которые позволяют проводить оценку более чем одного лечения. В дизайне обратного лечения с множественным лечением за базовой фазой следуют отдельные фазы, в которые вводятся разные виды лечения. Например, исследователь может установить базовый уровень изучения поведения ученика, который нарушает правила поведения (A), затем ввести лечение, предполагающее позитивное внимание со стороны учителя (B), а затем переключиться на лечение, предполагающее мягкое наказание за неиспользование (C). Затем участник может быть возвращен к исходной фазе перед повторным введением каждого лечения — возможно, в обратном порядке, чтобы контролировать эффекты переноса. Этот конкретный реверсивный дизайн с множественной обработкой также можно назвать дизайном ABCACB.

При чередующемся дизайне лечения два или более лечения чередуются относительно быстро по регулярному графику. Например, позитивное внимание к учебе можно использовать один день, а в следующий — мягкое наказание за то, что он не учебу, и так далее.Или одно лечение можно проводить утром, а другое — днем. Дизайн чередующихся процедур может быть быстрым и эффективным способом сравнения лечения, но только в том случае, если лечение является быстродействующим.

Есть две потенциальные проблемы с реверсивным дизайном — обе связаны с отменой лечения. Во-первых, если лечение работает, его удаление может быть неэтичным. Например, если лечение, казалось бы, снижает частоту членовредительства у ребенка с отклонениями в развитии, было бы неэтично отказываться от этого лечения только для того, чтобы показать, что частота членовредительства увеличивается. Вторая проблема заключается в том, что зависимая переменная может не вернуться к исходному уровню после отмены лечения. Например, если убрать позитивное внимание к учебе, студент может продолжить обучение с повышенной скоростью. Это могло означать, что положительное внимание оказало длительное влияние на учебу студента, что, конечно, было бы хорошо. Но это также могло означать, что положительное внимание на самом деле не было причиной увеличения учебы. Возможно, что-то еще произошло примерно в то же время, что и лечение — например, родители ученика могли начать вознаграждать его за хорошие оценки.

Одним из решений этих проблем является использование проекта с несколькими базовыми линиями, который представлен на рисунке 10.4. В одной из версий дизайна для каждого из нескольких участников устанавливается базовый уровень, а затем для каждого из них вводится курс лечения. По сути, каждый участник тестируется в дизайне AB. Ключом к этому дизайну является то, что лечение вводится в разное время , для каждого участника. Идея состоит в том, что если зависимая переменная изменяется, когда лечение вводится для одного участника, это может быть совпадением.Но если зависимая переменная изменяется, когда лечение вводится для нескольких участников, особенно когда лечение вводится в разное время для разных участников, то это крайне маловероятно.

Рисунок 10.4 Результаты типового исследования с множественными базовыми уровнями. Несколько базовых показателей могут быть для разных участников, зависимых переменных или настроек. Лечение вводится в разное время на каждом исходном уровне. [Длинное описание]

В качестве примера рассмотрим исследование Скотта Росса и Роберта Хорнера (Ross & Horner, 2009).Их интересовало, как общешкольная программа предотвращения издевательств влияет на агрессивное поведение конкретных проблемных учащихся. В каждой из трех разных школ исследователи изучали двух учеников, которые регулярно участвовали в издевательствах. Во время базовой фазы они наблюдали за учениками в течение 10-минутных периодов каждый день во время обеденного перерыва и подсчитывали количество агрессивного поведения, которое они проявляли по отношению к своим сверстникам. (Исследователи использовали карманные компьютеры для записи данных.) Через 2 недели они реализовали программу в одной школе.Еще через 2 недели внедрили во второй школе. И еще через 2 недели внедрили в третьей школе. Они обнаружили, что количество агрессивных форм поведения, проявляемых каждым учеником, снизилось вскоре после того, как программа была реализована в его или ее школе. Обратите внимание, что если бы исследователи изучали только одну школу или если бы они вводили лечение одновременно во всех трех школах, тогда было бы неясно, было ли снижение агрессивного поведения связано с программой издевательств или чем-то еще, что произошло примерно в то же время, когда он был представлен (e.г., праздник, телепрограмма, смена погоды). Но с их дизайном с несколькими базовыми линиями такое совпадение должно было произойти три разных раза — что очень маловероятно — чтобы объяснить их результаты.

В другой версии схемы с несколькими базовыми линиями для одного и того же участника, но для разных зависимых переменных устанавливаются несколько базовых показателей, и лечение вводится в разное время для каждой зависимой переменной. Представьте себе, например, исследование влияния постановки четких целей на производительность офисного работника, перед которым стоят две основные задачи: звонки по продажам и написание отчетов.Базовые показатели для обеих задач могут быть установлены. Например, исследователь может измерить количество совершенных торговых звонков и отчетов, написанных работником каждую неделю в течение нескольких недель. Затем можно было бы внедрить методику постановки целей для одной из этих задач, а позже такое же лечение можно было бы ввести для другой задачи. Логика такая же, как и раньше. Если после введения лечения продуктивность выполнения одной задачи увеличивается, неясно, вызвало ли это повышение результативность лечения.Но если продуктивность при выполнении обеих задач повышается после введения лечения — особенно когда лечение вводится в два разных периода — тогда кажется гораздо более очевидным, что лечение было ответственным.

Еще в третьей версии дизайна с несколькими базовыми линиями для одного и того же участника, но в разных условиях, устанавливаются несколько базовых показателей. Например, можно установить базовый уровень для количества времени, которое ребенок проводит за чтением в свободное время в школе и в свободное время дома.Тогда можно было бы ввести такое лечение, как позитивное внимание, сначала в школе, а затем дома. Опять же, если зависимая переменная изменяется после того, как лечение вводится в каждом параметре, это дает исследователю уверенность в том, что лечение, на самом деле, несет ответственность за изменение.

Помимо того, что фокусируется на отдельных участниках, исследование одного предмета отличается от исследования группы тем, как обычно анализируются данные. Как мы видели на протяжении всей книги, групповое исследование включает объединение данных от разных участников.Групповые данные описываются с использованием таких статистических данных, как средние значения, стандартные отклонения, шкала Пирсона r и т. Д. Для выявления общих закономерностей. Наконец, статистические данные используются, чтобы помочь решить, будет ли результат для выборки распространяться на генеральную совокупность. Однообъектное исследование, напротив, в значительной степени опирается на совершенно иной подход, называемый визуальным осмотром. Это означает нанесение на график данных отдельных участников, как показано в этой главе, тщательный анализ этих данных и вынесение суждений о том, оказала ли и в какой степени независимая переменная влияние на зависимую переменную.Логическая статистика обычно не используется.

При визуальном изучении своих данных исследователи-одиночки принимают во внимание несколько факторов. Одно из них — изменение уровня зависимой переменной от условия к условию. Если зависимая переменная намного выше или намного ниже в одном состоянии, чем в другом, это говорит о том, что лечение имело эффект. Второй фактор — это тренд, который относится к постепенному увеличению или уменьшению зависимой переменной в ходе наблюдений.Если зависимая переменная начинает увеличиваться или уменьшаться с изменением условий, то это снова говорит о том, что лечение имело эффект. Это может быть особенно показательно, когда тенденция меняет направление — например, когда нежелательное поведение усиливается во время исходного уровня, но затем начинает уменьшаться с введением лечения. Третий фактор — это задержка, то есть время, необходимое для того, чтобы зависимая переменная начала изменяться после изменения условий. В общем, если изменение зависимой переменной начинается вскоре после изменения условий, это говорит о том, что лечение было ответственным.

На верхней панели рисунка 10.5 видны довольно очевидные изменения уровня и тренда зависимой переменной от условия к условию. Кроме того, задержки этих изменений короткие; изменение происходит немедленно. Этот образец результатов убедительно свидетельствует о том, что лечение было ответственным за изменения зависимой переменной. Однако на нижней панели рисунка 10.5 изменения уровня довольно небольшие. И хотя, по-видимому, наблюдается тенденция к увеличению состояния лечения, похоже, что это может быть продолжением тенденции, которая уже началась во время исходного уровня.Этот образец результатов убедительно свидетельствует о том, что лечение не повлияло на какие-либо изменения зависимой переменной — по крайней мере, не в той степени, которую обычно надеются увидеть отдельные исследователи.

Рис. 10.5. Результаты типового индивидуального исследования с указанием уровня, тенденции и задержки. Визуальный осмотр данных предполагает эффективное лечение на верхней панели, но неэффективное лечение на нижней панели. [Подробное описание]

Результаты отдельных исследований можно также анализировать с помощью статистических процедур — и это становится все более распространенным явлением.Существует множество различных подходов, и исследователи одного предмета продолжают спорить о том, какие из них наиболее полезны. Один подход аналогичен тому, что обычно делается в групповых исследованиях. Среднее значение и стандартное отклонение ответов каждого участника при каждом условии вычисляются и сравниваются, и применяются логические статистические тесты, такие как тест t или дисперсионный анализ (Fisch, 2001). (Обратите внимание, что усреднение для участников встречается реже.) Другой подход — вычислить процент неперекрывающихся данных (PND) для каждого участника (Scruggs & Mastropieri, 2001). Это процент ответов в условиях лечения, которые являются более экстремальными, чем наиболее экстремальные реакции в соответствующем контрольном состоянии. В исследовании Холла и его коллег, например, все измерения времени исследования Робби в первом режиме лечения были больше, чем самый высокий показатель в первом исходном состоянии, для PND 100%. Чем больше процент неперекрывающихся данных, тем сильнее эффект лечения. Тем не менее, формальные статистические подходы к анализу данных в исследованиях с одним предметом обычно считаются дополнением к визуальному осмотру, а не его заменой.

  • Планы исследования с одним предметом обычно включают многократное измерение зависимой переменной с течением времени и изменение условий (например, от исходного уровня к лечению), когда зависимая переменная достигла устойчивого состояния. Этот подход позволяет исследователю увидеть, вызывают ли изменения в независимой переменной изменения в зависимой переменной.
  • В реверсивном дизайне участник тестируется в исходном состоянии, затем тестируется в условиях лечения, а затем возвращается в исходное состояние. Если зависимая переменная изменяется с введением лечения, а затем возвращается к исходному уровню, это является убедительным доказательством эффекта лечения.
  • В дизайне с несколькими базовыми линиями базовые уровни устанавливаются для разных участников, разных зависимых переменных или разных параметров — и лечение вводится в разное время для каждого базового уровня. Если введение лечения сопровождается изменением зависимой переменной на каждом исходном уровне, это является убедительным доказательством эффекта лечения.
  • Специализированные исследователи обычно анализируют свои данные, отображая их в виде графиков и вынося суждения о том, влияет ли независимая переменная на зависимую переменную на основе уровня, тенденции и задержки.
  1. Практика: спланируйте простое исследование с одним предметом (используя либо обратный, либо множественный базовый план), чтобы ответить на следующие вопросы. Обязательно укажите лечение, операционно определите зависимую переменную, решите, когда и где будут проводиться наблюдения, и так далее.
    • Улучшает ли положительное внимание родителей поведение ребенка при чистке зубов?
    • Улучшает ли самопроверка во время учебы успеваемость учащегося на еженедельных проверках правописания?
    • Помогают ли регулярные упражнения избавиться от депрессии?
  2. Практика: создайте график, отображающий гипотетические результаты исследования, которое вы разработали в упражнении 1. Напишите абзац, в котором вы опишите, что показывают результаты. Обязательно прокомментируйте уровень, тенденцию и задержку.

Рисунок 10.3, подробное описание: Линейный график, показывающий результаты исследования с реверсивным дизайном ABAB. Зависимая переменная была низкой во время первой базовой фазы; увеличился при первом обращении; снизился во время второго базового уровня, но все еще был выше, чем во время первого базового уровня; и был самым высоким во время второй фазы лечения. [Вернуться к рисунку 10.3]

Рисунок 10. 4, подробное описание: Три линейных графика, показывающие результаты типового исследования с несколькими базовыми уровнями, в котором устанавливаются разные исходные уровни и участникам в разное время вводится курс лечения.

Для исходного уровня 1 лечение вводится на четверть всего исследования. Зависимая переменная колеблется от 12 до 16 единиц в течение исходного уровня, но снижается до 10 единиц при лечении и в основном уменьшается до конца исследования, в пределах от 4 до 10 единиц.

Для исходного уровня 2 лечение вводится в середине исследования. Зависимая переменная колеблется от 10 до 15 единиц в течение исходного уровня, а затем резко снижается до 7 единиц, когда вводится лечение.Однако зависимая переменная увеличивается до 12 единиц вскоре после падения и колеблется от 8 до 10 единиц до конца исследования.

Для исходного уровня 3 лечение вводится на три четверти времени исследования. Зависимая переменная колеблется от 12 до 16 единиц по большей части в течение базовой линии, с одним раскрывающимся списком до 10 единиц. Когда вводится лечение, зависимая переменная снижается до 10 единиц, а затем колеблется от 8 до 9 единиц до конца исследования. [Вернитесь к рисунку 10.4]

Рисунок 10.5, подробное описание: Два графика, показывающие результаты типового исследования одного предмета с дизайном ABA. На первом графике при условии A уровень высокий и тенденция увеличивается. При условии B уровень намного ниже, чем при условии A, и тренд снижается. И снова при условии А уровень примерно такой же высокий, как и в первый раз, и тенденция увеличивается. Для каждого изменения время ожидания невелико, что позволяет предположить, что причиной изменения является лечение.

На втором графике, при условии A, уровень относительно низкий, и тенденция увеличивается. При условии B уровень немного выше, чем при условии A, и тенденция немного увеличивается. Опять же, при условии A уровень немного ниже, чем при условии B, и тенденция немного снижается. Сложно определить латентность этих изменений, поскольку каждое изменение довольно минутное, что говорит о неэффективности лечения. [Вернуться к рисунку 10.5]

Планы экспериментов с одним субъектом для доказательной практики

Реферат

Цель

Планы экспериментов с одним субъектом (SSED) представляют собой важный инструмент в разработке и внедрении практики, основанной на доказательствах, в науках о коммуникации и нарушениях.Целью данной статьи является обзор стратегий и тактик SSED и их применения в исследовании патологии речи.

Метод

Авторы обсуждают требования к каждой конструкции, а также достоинства и недостатки. Рассмотрены логика и методы оценки эффектов в SSED, а также современные проблемы, связанные с анализом данных с наборами данных SSED. Включены примеры проблем при выполнении SSED. Конкретные примеры того, как SSED использовались в исследованиях патологии речи, представлены повсюду.

Заключение

Исследования SSED предоставляют гибкую альтернативу традиционным групповым проектам при разработке и выявлении доказательной практики в области коммуникационных наук и расстройств.

Ключевые слова: однопредметные экспериментальные планы, учебное пособие, методы исследования, практика, основанная на фактах.

Использование однопредметных экспериментальных планов (SSED) имеет богатую историю в исследованиях коммуникационных наук и расстройств (CSD). В ряде важных исследований, относящихся к 1960-м и 1970-м годам, изучались методы лечения беглости речи с использованием подходов SSED (например,г., Hanson, 1978; Гарольдсон, Мартин и Старр, 1968; Мартин и Сигель, 1966; Рид и Годден, 1977). Несколько обзоров, учебных пособий и учебников, описывающих и продвигающих использование SSED в CSD, были впоследствии опубликованы в 1980-х и 1990-х годах (например, Connell, & Thompson, 1986; Fukkink, 1996; Kearns, 1986; McReynolds & Kearns, 1983; McReynolds & Томпсон, 1986; Роби, Шульц, Кроуфорд и Синнер, 1999). Несмотря на историю их использования в CSD, SSED иногда игнорируются в современных обсуждениях научно-обоснованной практики.В этой статье представлен всесторонний обзор SSED, специфичных для вопросов научно обоснованной практики в CSD, которые, в свою очередь, могут быть использованы для информирования как дисциплинарных исследований, так и клинической практики.

В нынешнем климате практики, основанной на фактических данных, инструменты, предоставляемые SSED, одинаково актуальны как для исследователей, так и для практиков. Американская ассоциация речи, языка и слуха (ASHA; 2005) способствует включению практики, основанной на фактических данных, в клиническую практику, определяя практику, основанную на фактических данных, как «подход, при котором текущие высококачественные научные данные объединяются с опытом практикующего врача и клиентом. предпочтения и ценности в процессе принятия клинических решений.«Ориентация на отдельного клиента, обеспечиваемая SSED, делает их идеальными для клинического применения. Потенциальная сила внутренней валидности SSED позволяет исследователям, клиницистам и преподавателям задавать вопросы, на которые невозможно или невозможно ответить с помощью традиционных групповых схем. Из-за этих сильных сторон и клиницисты, и исследователи должны быть знакомы с применением, интерпретацией и взаимосвязью между SSED и научно-обоснованной практикой.

Цель этого руководства — познакомить читателей с логикой SSED и тем, как их можно использовать для установления практики, основанной на фактах.Описываются основы методологии SSED, за которыми следуют описания нескольких обычно реализуемых SSED, включая их преимущества и ограничения, а также обсуждение вопросов анализа и оценки SSED. Затем рассматривается набор стандартов для оценки качества доказательств в SSED. Примеры использования SSED в исследованиях CSD приводятся повсюду. Наконец, рассматривается ряд текущих проблем SSED, включая расчеты размера эффекта и использование статистических методов при анализе данных SSED.

Роль SSED в доказательной практике

Было разработано множество критериев для определения лучших образовательных и клинических практик, которые поддерживаются исследованиями в области психологии, образования, речевого языка и связанных с ними реабилитационных дисциплин. Некоторые из руководящих принципов включают SSED как один экспериментальный план, который может помочь определить эффективность конкретных методов лечения (например, Chambless et al. , 1998; Horner et al., 2005; Yorkston et al., 2001). Однако многие исследовательские сообщества придерживаются позиции, согласно которой рандомизированные контрольные испытания (РКИ) представляют собой «золотой стандарт» исследовательской методологии, направленной на проверку лучших практик вмешательства; Таким образом, РКИ де-факто становятся единственной действенной методологией исследования, необходимой для установления практики, основанной на фактах.

РКИ действительно имеют много конкретных преимуществ, связанных с пониманием причинно-следственных связей путем решения методологических проблем, которые могут поставить под угрозу внутреннюю валидность научных исследований. Каздин (2010), однако, убедительно утверждал, что определенные характеристики SSED делают их важным дополнением и альтернативой проектам для больших групп. Он утверждал, что рандомизированные контролируемые исследования могут оказаться невозможными для многих типов вмешательств, поскольку ресурсы для таких крупномасштабных исследований могут быть недоступны для тестирования тысяч методов лечения, которые, вероятно, будут использоваться в той или иной области. Кроме того, тщательно контролируемые условия, в которых должны проводиться РКИ, чтобы гарантировать интерпретируемость результатов, могут оказаться несопоставимыми и / или невозможными для реализации в реальных (т. Е. Неконтролируемых) условиях. SSED — идеальный инструмент для определения жизнеспособности лечения в реальных условиях до того, как будут предприняты попытки их внедрения в широком масштабе, необходимом для РКИ (т. Е. Масштабирование). В идеале будет проведено несколько исследований с использованием различных методологий, чтобы сделать вмешательство практикой, основанной на фактических данных.Когда лечение установлено на основе доказательств с использованием РКИ, это часто интерпретируется как означающее, что вмешательство эффективно для большинства или всех участвовавших лиц. К сожалению, это может быть не так (т. Е. Есть респонденты и не ответившие). Таким образом, может потребоваться систематическая оценка эффектов лечения на индивидуальном уровне, особенно в контексте образовательной или клинической практики. SSED могут быть полезны при определении оптимального лечения для конкретного клиента и при описании эффектов на индивидуальном уровне.

Анализ эффектов в SSED

Желаемые качества исходных данных

Анализ экспериментального контроля во всех SSED основан на визуальном сравнении двух или более условий. Тестируемые условия обычно включают исходное состояние, при котором не проводится никакого вмешательства, а также одно или несколько условий вмешательства. Базовая фаза устанавливает ориентир, с которым можно сравнивать поведение человека в последующих условиях. Данные этого этапа должны обладать определенными качествами, чтобы обеспечить подходящую основу для сравнения.Первым качеством идеальных исходных данных является стабильность, то есть их ограниченная изменчивость. При стабильных данных диапазон, в который будут попадать будущие точки данных, предсказуем. Второе качество идеальных исходных данных — это отсутствие четкой тенденции к улучшению. Сложность, создаваемая тенденциями в исходных данных, продиктована направлением изменения поведения, ожидаемого во время фазы вмешательства: если ожидается, что поведение, отраженное в зависимой мере, будет увеличиваться в результате вмешательства, тенденция к снижению во время базовой линии не вызывает значительная проблема. Если, с другой стороны, тенденция для зависимого показателя увеличивается во время исходного уровня, определение того, является ли продолжающееся увеличение во время фазы вмешательства эффектом лечения, вероятно, будет нарушено. По соглашению, для установления стабильности зависимых показателей требуется минимум три точки исходных данных (Kazdin, 2010), предпочтительнее большее количество. Если стабильность не была установлена ​​на начальных сеансах, необходимо провести дополнительные измерения, пока не будет достигнута стабильность.В качестве альтернативы могут быть предприняты шаги по введению дополнительных средств контроля (усиление внутренней валидности) в базовые сеансы, которые могут способствовать изменчивости.

Визуальная проверка данных как стратегия сокращения данных: изменения уровня, тренда и изменчивости

После того, как данные во всех условиях были получены, они проверяются на изменения одного или нескольких из трех параметров: уровень, тренд (наклон) , и изменчивость. Уровень относится к средней производительности во время фазы.Панель A показывает гипотетические данные, демонстрирующие изменение уровня. В этом случае средний показатель эффективности на исходном этапе ниже, чем средний показатель производительности на этапе вмешательства. также показывает, что изменение уровня произошло сразу после смены фазы. Изменение уровня очевидно отчасти потому, что фазы не перекрываются, а это означает, что самая низкая точка данных из фазы вмешательства все еще выше, чем самая высокая точка данных из базовой фазы.

Гипотетические данные, демонстрирующие однозначные изменения в уровне (панель A), тенденции (панель B) и изменчивости (панель C).

С другой стороны, существует перекрытие между исходной фазой и фазой вмешательства на панели B, и общий уровень зависимой переменной не сильно различается между фазами. Тем не менее, тенденция меняется, поскольку на исходной фазе наблюдается устойчивая тенденция к снижению, которая меняется на противоположную на фазе вмешательства.

Наконец, на панели C нет свидетельств изменений уровня или тренда.Однако есть изменение в вариативности. На этапе базовой линии производительность в зависимом измерении сильно варьируется: минимум 0% и максимум 100%. Напротив, во время фазы вмешательства производительность стабильна с диапазоном всего 6%. Все три типа изменений могут быть использованы в качестве доказательства эффектов независимой переменной в соответствующем экспериментальном дизайне.

Когда такие изменения большие и немедленные, визуальный осмотр относительно прост, как на всех трех графиках в.Однако во многих наборах реальных данных последствия более неоднозначны. Возьмем, например, графики в. Если рассматривать только среднюю производительность на каждой фазе, каждый из этих графиков включает изменение уровня между фазами. Однако при более внимательном рассмотрении каждая из них представляет собой проблему, которая угрожает внутренней валидности эксперимента и способности клинического исследователя сделать обоснованный причинно-следственный вывод о связи между лечением (независимая переменная) и эффектом (зависимая переменная).

Гипотетические данные, демонстрирующие отсутствие эффекта: отсроченная задержка для изменения (панель A), тенденция в желаемом направлении во время базовой фазы (панель B), сильно изменчивые данные с перекрытием между базовой линией и фазой вмешательства (панель C).

На панели А не наблюдается никаких изменений до третьего сеанса фазы вмешательства. Эта задержка ставит под сомнение предположение о том, что манипуляции с независимой переменной ответственны за наблюдаемые изменения в зависимой переменной.Возможно, что наблюдаемое изменение правильнее отнести к какому-либо фактору, не зависящему от экспериментатора. Чтобы исключить правдоподобие посторонней переменной, экспериментальный эффект должен быть воспроизведен, тем самым показывая, что, несмотря на возможную задержку, изменения зависимой переменной достоверно происходят после изменений независимой переменной. Этот тип репликации (в рамках исследования) является основной характеристикой SSED и основной основой для внутренних достоверных выводов.

Напротив, на панели B показан набор данных, в котором присутствует тенденция к увеличению во время базовой фазы. В результате любое увеличение, наблюдаемое во время фазы вмешательства, может быть просто продолжением этой тенденции, а не результатом манипулирования независимой переменной. Это подчеркивает важность «хороших» исходных данных и, в частности, необходимость продолжения сбора исходных данных, чтобы исключить возможность того, что любые наблюдаемые тенденции, вероятно, сохранятся в отсутствие вмешательства.

Панель C также подчеркивает важность «хороших» исходных данных. Хотя на исходной фазе не наблюдается последовательной тенденции, данные сильно различаются. В результате существует перекрытие между многими сеансами на исходной фазе и фазе вмешательства, даже несмотря на то, что средний уровень эффективности выше на фазе вмешательства ( M = 37%), чем на исходной фазе ( M = 57%). Поскольку определение экспериментальных эффектов в SSED основано на визуальном осмотре результатов, а не на статистическом анализе, такое перекрытие скрывает любые потенциальные эффекты.В результате при сборе исходных данных, подобных этим, исследователь должен попытаться устранить возможные источники изменчивости, чтобы помочь установить четкую модель реагирования.

Угрозы внутренней действительности SSED, такие как продемонстрированные в, описываются как «демонстрация отсутствия эффекта» на языке группы, созданной Информационным центром What Works (WWCH), инициативой Института образовательных наук (IES). ), который был назначен для разработки набора критериев для определения того, предоставляют ли результаты SSED доказательства достаточного качества для определения вмешательства как основанного на доказательствах (Kratochwill et al., 2010). Далее следует описание критериев, разработанных комиссией, а также их применения в доказательной практике в центральных депозитариях.

Критерии качества доказательств в SSED

Ряд групп из различных областей разработали критерии для оценки качества доказательств, используемых для поддержки эффективности вмешательств и для облегчения внедрения результатов исследований в практику. Среди самых последних из этих критериев, ориентированных конкретно на SSED, — критерии, разработанные группой WWCH.Принимая во внимание критерии WWCH, определение того, квалифицируется ли вмешательство как доказательное, включает трехэтапную последовательность. Первый шаг включает оценку адекватности экспериментального плана (см.), Чтобы определить, соответствует ли он стандартам, с оговорками или без них. Если дизайн не соответствует требованиям, дальнейшие действия не требуются. Если дизайн соответствует стандартам, второй шаг — провести визуальный анализ результатов, чтобы определить, предполагают ли данные экспериментальный эффект.Если визуальный анализ подтверждает наличие эффекта, данные следует исследовать на предмет демонстрации отсутствия эффекта, например, изображенных на. Если не обнаружено никаких доказательств экспериментального эффекта, процесс прекращают. Если визуальный анализ предполагает, что результаты подтверждают эффективность вмешательства, рецензент может перейти к третьему этапу: оценке общего состояния доказательств в пользу вмешательства путем изучения того, сколько раз была продемонстрирована его эффективность, и то и другое. внутри и между участниками.Важность репликации в SSED обсуждается более подробно в следующем разделе. Если дизайн соответствует стандартам и визуальный анализ показывает, что эффект есть, без демонстрации отсутствия эффекта, исследование будет считаться тем, которое предоставляет убедительные доказательства. Если оно соответствует стандартам и есть доказательства эффекта, но результаты включают хотя бы одну демонстрацию отсутствия эффекта, тогда исследование будет считаться тем, которое предоставляет умеренные доказательства. Результаты всех исследований, в которых сообщалось об эффектах конкретного вмешательства, затем могут быть изучены на предмет общего уровня доказательств в пользу лечения.

ТАБЛИЦА 1

Краткое изложение критериев центра обмена информацией для экспериментальных проектов.

Элемент дизайна Соответствует стандартам Соответствует стандартам, но с оговорками Не соответствует стандартам
Независимые переменные Активно используются исследователем Исследователь не контролирует изменения условий
Зависимые переменные Систематически измеряются во времени Нет систематических измерений (например,g., анекдотический пример)
Измерено более чем одним экспертом Только один эксперт
Включает соглашение между экспертами по крайней мере по 20% точек данных на каждой фазе Отсутствие соглашения между экспертами, только на некоторых этапах или менее чем в 20% точек данных
Соглашение между экспертами соответствует минимальным пороговым значениям Плохое согласие между экспертами
Продолжительность фаз Не менее 5 точек данных на фазу 3–4 точки на фазу <3 точек на фазу
Воспроизведение эффекта Общее: <3 повтора
3 попытки продемонстрировать эффект в трех точках времени или с трехфазным повторением
Реверс / отмена: <4 фазы (например.g., AB, ABA, BAB)
4 фазы на случай (например, ABAB)
Критерий изменения: <3 критерия
3 критерия
Множественный базовый уровень / множественный зонд: <3 случая; <6 фаз
6 фаз, по крайней мере, в трех случаях
Альтернативное лечение: Всего 4 повтора 2 курса лечения без исходного уровня
базовый уровень или 3 лечения по сравнению друг с другом
5 повторений каждого условия <4 повторений

Репликация для внутренней и внешней достоверности

Репликация одного из отличительных признаков SSED.Экспериментальный контроль демонстрируется, когда эффекты вмешательства многократно и надежно демонстрируются в пределах одного участника или небольшого числа участников. Способ воспроизведения эффектов зависит от конкретной экспериментальной схемы. Для многих проектов каждый раз, когда вмешательство реализуется (или отменяется после начальной фазы вмешательства), создается возможность предоставить экземпляр репликации эффекта. Эта репликация в рамках исследования является основой внутренней достоверности SSED.

Путем тиражирования исследования для разных участников или разных типов участников, исследователи и клиницисты могут изучить общность эффектов лечения и, таким образом, потенциально повысить внешнюю валидность. Каздин (2010) различал два типа репликации. Прямая репликация относится к применению вмешательства к новым участникам в точно или почти точно таких же условиях, как те, которые были включены в исходное исследование. Этот тип репликации позволяет исследователю или клиницисту определить, были ли результаты первоначального исследования специфичными для участвовавших в нем участников. Систематическое воспроизведение включает повторение исследования при систематическом изменении одного или нескольких аспектов исходного исследования. Это может включать применение вмешательства к участникам с более разнородными характеристиками, проведение вмешательства в другой обстановке с другими зависимыми переменными и т. Д. Различия, присущие систематическому воспроизведению, позволяют исследователю, преподавателю или клиницисту определить степень обобщения результатов для разных типов участников, условий или целевого поведения.Как отмечают Джонстон и Пеннипакер (2009), прямое воспроизведение эффекта говорит нам об уверенности в наших знаниях, тогда как систематическое повторение может расширить объем наших знаний.

Вмешательство или лечение не могут считаться доказательствами, основанными на результатах одного исследования. Группа WWCH рекомендовала, чтобы вмешательство имело как минимум пять поддерживающих исследований SSED, соответствующих стандартам доказательств, если исследования должны быть объединены в единую сводную оценку эффективности вмешательства.Кроме того, эти исследования должны были проводиться как минимум тремя разными исследовательскими группами в трех разных географических точках и включать в себя не менее 20 участников или случаев (см. O’Neill, McDonnell, Billingsley, & Jenson, 2011, для краткое изложение различных практических руководств по тиражированию, основанных на фактических данных). Группа также предложила использовать некоторый тип размера эффекта для количественной оценки воздействия вмешательства в каждом исследовании, тем самым облегчая вычисление единой сводной оценки доказательств в пользу изобретения (обсуждение преимуществ и недостатков SSED и размеров эффектов следует позже).В следующем разделе описаны и рассмотрены конкретные типы SSED.

Типы SSED

Обсуждаются шесть основных типов дизайна: предэкспериментальный (или AB) дизайн, дизайн с отводом (или ABA / ABAB), дизайн с несколькими базовыми линиями / несколькими датчиками, дизайн с изменяющимся критерием, дизайн с множественным лечением, а также чередующиеся методы лечения и адаптированные варианты чередующихся режимов лечения (см.).

ТАБЛИЦА 2

Резюме однопредметных экспериментальных дизайнов (SSED).

Конструкция Вопросы исследования Преимущества Недостатки
Предварительные эксперименты (AB) Изменится ли исход X по сравнению с исходным уровнем после введения вмешательства B? • Быстрое и эффективное внедрение.
• Подходит для принятия решений с небольшими ставками.
• Не контролирует угрозы внутренней действительности; не экспериментальный дизайн.
Вывод средств (ABA / ABAB) Зависит ли исход X от введения и отмены вмешательства B? • Простота реализации, строгий экспериментальный контроль при немедленных и значительных эффектах. • Существуют этические соображения относительно отмены или отмены потенциально эффективного вмешательства.
• Не все поведения «обратимы».
Несколько базовых линий / несколько зондов Изменяется ли исход X по сравнению с исходным уровнем при введении вмешательства B для нескольких участников, ответов, условий и т. Д.? • Не требует отмены вмешательства.
• Подходит для необратимого поведения.
• Этические соображения, касающиеся поддержания людей / поведения в исходных условиях в течение длительного периода.
• Требуется несколько лиц, ответов, настроек и т. Д., Которые сопоставимы для воспроизведения эффектов.
Критерий изменения Соответствуют ли изменения уровня исхода X изменениям критериев вмешательства? • Не требует разворота.
• Подходит для поведения, которое можно постепенно менять.
• Полезно для вмешательств, основанных на последствиях.
• Изменения должны происходить поэтапно; не подходит для поведения, требующего немедленного изменения.
• Требует использования вмешательств, основанных на стимулах или последствиях.
Многократное лечение Каковы относительные эффекты вмешательств A и B (и C, D и т. Д.) На результат X по сравнению друг с другом и / или исходными уровнями? • Может быть расширен для сравнения любого количества вмешательств или переменных.
• Может продлить исследование отмены, когда эффекты первоначального вмешательства не так выражены, как ожидалось.
• Может использоваться для проведения компонентного анализа необходимых и достаточных компонентов вмешательства.
• Поведение должно быть обратимым, чтобы продемонстрировать относительные эффекты.
• Уместны только сравнения между соседними условиями.
• Может потребовать много времени и сложностей в реализации при увеличении количества сравниваемых вмешательств.
• Результаты подвержены влиянию множественных лечебных воздействий.
Чередование процедур Каковы относительные эффекты вмешательств A и B (и C, D и т. Д.) На результат X по сравнению друг с другом и / или исходными уровнями? • Может быть расширен для сравнения любого количества вмешательств или переменных.
• Может предоставить убедительные экспериментальные доказательства за относительно небольшое количество сеансов.
• Поведение должно быть легко обратимым, чтобы можно было различать состояния.
• Результаты подвержены влиянию множественных лечебных воздействий.
Адаптированные альтернативные методы лечения Каковы относительные эффекты вмешательства A на исход X и вмешательства B на исход Y? • Менее подвержен множественному вмешательству при лечении.
• Может предоставить убедительные экспериментальные доказательства за относительно небольшое количество сеансов.
• Не требует разворота.
• Набор поведения или стимулов должен быть напрямую сопоставим, чтобы эффекты были значимыми.
• Необходимо учитывать возможное обобщение поведения.

Предварительный эксперимент (AB)

Хотя дизайн AB часто описывается как SSED, его более точно считать доэкспериментальным дизайном, поскольку он недостаточно контролирует многие угрозы внутренней валидности и, следовательно, , не демонстрирует экспериментального контроля. В результате план AB лучше всего рассматривать как такой, который демонстрирует корреляцию между независимыми и зависимыми переменными, но не обязательно причинно-следственную связь. Тем не менее, дизайн AB является важным строительным блоком для настоящих экспериментальных проектов.Он состоит из двух фаз: фазы A (исходный уровень) и фазы B (вмешательства). Несколько базовых сессий устанавливают уровень производительности перед вмешательством. Как отмечалось ранее, цель базовой фазы состоит в том, чтобы установить существующие уровни / паттерны интересующего (ых) поведения (й), что позволяет делать прогнозы будущей эффективности при продолжающемся отсутствии вмешательства. Однако из-за отсутствия воспроизведения экспериментального эффекта в дизайне AB невозможно с уверенностью сказать, являются ли какие-либо наблюдаемые изменения зависимой переменной надежным, воспроизводимым результатом манипулирования независимой переменной.В результате возможно, что любое количество внешних факторов может быть причиной наблюдаемых изменений. Тем не менее, эти планы могут предоставить предварительные объективные данные относительно эффектов вмешательства, когда время и ресурсы ограничены (см. Kazdin, 2010).

Схемы отмены (ABA и ABAB)

Схема отмены — это один из вариантов ответа на исследовательские вопросы, касающиеся эффектов одного вмешательства или независимой переменной. Как и дизайн AB, дизайн ABA начинается с базовой фазы (A), за которой следует фаза вмешательства (B).Однако план ABA предоставляет дополнительную возможность продемонстрировать эффекты манипулирования независимой переменной путем отмены вмешательства во время второй фазы «А». Дальнейшим расширением этого дизайна является дизайн ABAB, в котором вмешательство повторно реализуется на втором этапе «B». Дизайн ABAB имеет преимущество дополнительной демонстрации экспериментального контроля с повторной реализацией вмешательства. Кроме того, многие клиницисты / преподаватели предпочитают схему ABAB, потому что исследование заканчивается фазой лечения, а не отсутствием вмешательства.

Стоит отметить, что, хотя они часто используются как взаимозаменяемые в литературе, термины дизайн отвода и реверсивный дизайн относятся к двум взаимосвязанным, но совершенно разным исследовательским проектам. В схеме отмены третья фаза представляет собой возврат к условиям, предшествовавшим вмешательству, или отмену вмешательства. Напротив, реверсивный дизайн требует активного реверсирования условий вмешательства. Например, подкрепление предоставляется в зависимости от возникновения реакции, несовместимой с реакцией, усиленной во время фазы вмешательства (B) (см. Barlow, Nock, & Hersen, 2009, для полного обсуждения механики и относительных преимуществ реверсивных схем). .

Последний пример конструкции вывода был выполнен Тинкани, Крозье и Алазетта (2006). Они реализовали дизайн ABAB, чтобы продемонстрировать эффекты положительного подкрепления вокализации в рамках системы обмена изображениями (PECS) с детьми школьного возраста с аутизмом (см.). Визуальный анализ результатов показывает большие, немедленные изменения в процентах вокальных приближений, излучаемых учащимся каждый раз, когда манипулируют независимой переменной, и нет никаких перекрывающихся данных между базовой линией и фазой вмешательства.Наконец, нет никаких демонстраций отсутствия эффекта. В результате этот случай будет считаться убедительным доказательством эффективности вмешательства, основанного на критериях доказательной практики WWCH. Исследование соответствует стандартам (с оговорками), потому что (а) исследователи активно манипулировали независимой переменной (наличие / отсутствие голосового подкрепления), (б) данные по зависимой переменной собирались систематически с течением времени, (в) минимум четыре точки данных были собраны на каждом этапе (по крайней мере, пять необходимы для соответствия стандартам без оговорок), и (d) эффект был воспроизведен три раза (вмешательство было реализовано, отозвано и реализовано снова).

Процент испытаний, содержащих вокальные аппроксимации при отсутствии положительного усиления вокализации (исходный уровень; см. Панель A) и положительного усиления вокализации (см. Панель B), с использованием дизайна ABAB. Voc. = вокал; PR = положительное подкрепление. Из «Коммуникационная система обмена изображениями: влияние на постановку задач и развитие речи у детей школьного возраста с аутизмом», Тинкани, Крозье и Алазетта, 2006 г., «Образование и обучение при нарушениях развития», 41, с. 183. Авторское право 2006 г., Совет по делам исключительных детей, Отдел по проблемам развития.Печатается с разрешения.

Преимущества и недостатки схем вывода

Схемы вывода (например, ABA и ABAB) обеспечивают высокую степень экспериментального контроля, будучи относительно простыми в планировании и реализации. Тем не менее, основное предположение дизайнов ABAB состоит в том, что целевой зависимой переменной является , обратимая (например, вернется к уровням до вмешательства, когда вмешательство будет отменено). Если человек продолжает вести себя на том же уровне, даже если вмешательство отменено, функциональная взаимосвязь между независимыми и зависимыми переменными не может быть продемонстрирована.Когда это происходит, исследование становится восприимчивым к тем же угрозам внутренней валидности, которые присущи дизайну AB.

Хотя можно ожидать, что многие модели поведения вернутся к уровням до вмешательства при изменении условий, другие этого не сделают. Например, если целью было научить или установить новое поведение, которое человек ранее не мог выполнять, возвращение к исходным условиям вряд ли заставит человека «разучиться» этому поведению. Точно так же исследования, направленные на повышение уровня владения навыком через практику, могут не дать возврата к исходному уровню после отмены вмешательства.В других случаях поведение родителей, учителей или персонала, осуществляющего вмешательство, может не вернуться к исходному уровню с адекватной точностью. В других случаях поведение может поддерживаться другими непредвиденными обстоятельствами, не находящимися под контролем экспериментатора.

Еще одним потенциальным недостатком этих дизайнов является этическая проблема, связанная с отменой явно эффективного вмешательства. Кроме того, заинтересованные стороны могут не желать (или не иметь возможности) вернуться к исходным условиям, особенно с учетом ожидания того, что поведение вернется к базовым уровням (или еще хуже), когда вмешательство будет прекращено.

В целом, разработки ABAB — одна из самых простых и надежных стратегий SSED для «демонстрации лечебного эффекта». Этические соображения относительно отмены вмешательства и обратимости поведения должны быть приняты во внимание до начала исследования. Дальнейшие расширения логики проектирования ABAB для сравнения двух или более вмешательств обсуждаются далее в этой статье.

Конструкции с несколькими базовыми линиями и множественными зондами

Конструкции с множественными базовыми линиями и множественными зондами подходят для ответов на исследовательские вопросы, касающиеся эффектов одного вмешательства или независимой переменной на трех или более индивидуумов, поведения, стимулы или настройки.На первый взгляд, дизайны с несколькими базовыми линиями выглядят как серия AB-дизайнов, уложенных друг на друга. Однако, вводя фазы вмешательства в шахматном порядке, эффекты могут быть воспроизведены таким образом, чтобы продемонстрировать экспериментальный контроль. В исследовании с несколькими исходными условиями исследователь выбирает несколько (обычно от трех до четырех) условий, в которых может быть реализовано вмешательство. Этими условиями могут быть разные формы поведения, люди, стимулы или обстоятельства. Каждое условие отображается на отдельной панели или участке , который напоминает график AB.Сбор исходных данных начинается одновременно по всем участкам. Вмешательство вводится систематически в одних условиях, в то время как сбор исходных данных продолжается в других. Как только ответ становится стабильным в фазе вмешательства в первом этапе, вмешательство вводится в следующем этапе, и это продолжается до тех пор, пока последовательность AB не будет завершена во всех этапах.

показаны результаты исследования с использованием множественного базового плана для всех участников, изучающего побочные языковые эффекты процедуры обучения задаче вопросов для детей с аутизмом (Koegel, Koegel, Green-Hopkins, & Barnes, 2010).Дизайн соответствует стандартам WWCH. Независимой переменной (процедура постановки вопросов) активно манипулировали, а зависимую переменную (процент непредсказуемых вопросов, задаваемых каждым ребенком) систематически измеряли во времени, сообщая о соответствующих уровнях согласия между наблюдателями. За исключением этапа обобщения, на каждом этапе было собрано не менее пяти точек данных. Поскольку этап обобщения не является неотъемлемой частью демонстрации экспериментального контроля, это не влияет на достаточность плана: эффекты были воспроизведены в трех действиях.

Процент непредвиденных вопросов, заданных тремя участниками на базовых, интервенционных и обобщающих сессиях с использованием множественного базового плана для всех участников. Из «Задавание вопросов и сопутствующее овладение речью у детей с аутизмом» Кегеля, Кегеля, Грин-Хопкинса и Барнса (2010), Journal of Autism and Developmental Disorders, 40, p. 512. Авторские права 2009 г. Авторы. Печатается с разрешения.

Визуальный анализ результатов подтверждает эффективность вмешательства, так как сразу же произошли изменения в непредсказуемой задаче вопросов с проведением вмешательства для всех трех детей, без перекрытия между исходной фазой и фазой вмешательства.В данных нет никаких признаков отсутствия эффекта. В результате это исследование предоставляет убедительные доказательства того, что вмешательство, задаваемое вопросами, приводит к увеличению числа дополнительных вопросов.

Представленные данные заключительной фазы исследования заслуживают внимания, потому что они показывают постоянную эффективность зависимой переменной в отсутствие лечения. В некотором смысле это похоже на возврат к исходным условиям, как во втором условии «А» плана вывода. В этом случае, однако, поведение не возвращается к уровням до вмешательства, предполагая, что поведение необратимо и что использование обратного плана для демонстрации эффектов вмешательства было бы неуместным.Для этого исследования сохранение поведения после отмены вмешательства поддерживает его долгосрочную эффективность, не подрывая экспериментального контроля.

В некоторых случаях одновременный и непрерывный сбор данных на всех участках планов с несколькими базовыми линиями невозможен или необходим. Конструкции с несколькими датчиками — это обычная разновидность нескольких базовых показателей, в которых непрерывная оценка базовой линии заменяется периодическими датчиками для документирования характеристик в каждом из условий во время базовой линии.Зонды уменьшают нагрузку на сбор данных, поскольку они устраняют необходимость непрерывного сбора данных на всех этапах одновременно (полное описание конструкции с несколькими зондами см. В Horner & Baer, ​​1978). Датчики перед вмешательством в Условии 1 получаются непрерывно, пока не установится стабильный режим работы. Между тем, отдельные сеансы сбора данных будут проводиться в каждом из других условий для оценки уровней до вмешательства. Как только ответ достигнет порога критерия в фазе вмешательства на первом этапе, на втором этапе вводится непрерывное измерение уровней до вмешательства.Когда наблюдается стабильная реакция во время фазы вмешательства, можно использовать прерывистые датчики, чтобы продемонстрировать непрерывную работу, и вмешательство вводится во вторую ногу. Этот шаблон повторяется до тех пор, пока эффекты вмешательства не будут продемонстрированы во всех условиях.

Конструкции с несколькими датчиками могут не подходить для поведения со значительной изменчивостью, потому что прерывистые датчики могут не предоставить достаточно данных для демонстрации функциональной взаимосвязи.Если стабильный образец ответа не ясен во время фазы базового уровня с зондами, может потребоваться непрерывная оценка формата нескольких базовых показателей.

При выборе условий для проекта с несколькими базовыми линиями (или несколькими датчиками) важно учитывать как независимость, так и эквивалентность условий. Независимость означает, что изменение поведения в одном условии не повлияет на производительность в других. Если условия не являются независимыми, внедрение вмешательства в одно состояние может привести к изменению поведения в другом состоянии, пока оно остается в исходной фазе (McReynolds & Kearns, 1983).Это затрудняет (если не делает невозможным) убедительно продемонстрировать, что вмешательство несет ответственность за изменения в поведении во всех условиях. При реализации вмешательства между отдельными людьми может возникнуть необходимость — во избежание распространения лечения — гарантировать, что участники не взаимодействуют друг с другом. Когда вмешательство реализуется в разных формах поведения, поведение должно быть тщательно отобрано, чтобы гарантировать, что любое обучение, происходящее в одном, не будет перенесено на другое.Точно так же контексты или стимулы должны быть достаточно разными, чтобы свести к минимуму вероятность генерализации эффекта.

Хотя предположение о независимости предполагает, что исследователи должны выбирать условия, которые явно отличаются друг от друга, условия должны быть достаточно похожими, чтобы эффекты независимой переменной могли быть воспроизведены в каждом из них. Если множественные базовые уровни проводятся для участников, это означает, что все участники должны быть сопоставимы по своему поведению и другим характеристикам.Если для разных типов поведения используются несколько базовых показателей, эти поведения должны быть похожими по функциям, топографии и усилиям, необходимым для их создания, при этом оставаясь независимыми друг от друга.

Преимущества и недостатки конструкций с несколькими базовыми линиями / несколькими зондами

Поскольку экспериментальный эффект воспроизводится в разных условиях в дизайнах с несколькими базовыми линиями / несколькими зондами, они не требуют отмены вмешательства. Это может сделать их более практичными в отношении поведения, при котором возврат к базовым уровням невозможен.Однако в зависимости от скорости изменений предыдущих условий одно или несколько условий могут оставаться в базовой фазе в течение относительно долгого времени. Таким образом, когда для участников проводится несколько базовых показателей, один или несколько человек могут подождать некоторое время, прежде чем получит потенциально полезное вмешательство.

Необходимость в нескольких условиях может сделать конструкции с несколькими базовыми линиями / несколькими датчиками неприемлемыми, когда вмешательство может быть применено только к одному человеку, поведению и настройке.Кроме того, такие потенциальные эффекты обобщения, как эти, должны быть рассмотрены и тщательно контролироваться, чтобы минимизировать угрозы внутренней достоверности при использовании этих схем. Тем не менее, дизайны с несколькими базовыми уровнями часто привлекают исследователей и интервенционистов, потому что они не требуют, чтобы поведение было обратимым, и не требуют отмены эффективного вмешательства.

Планы с изменяющимся критерием

Подобно планам отмены и множественным базовым / множественным исследованиям, планы с изменяющимся критерием подходят для ответов на вопросы, касающиеся воздействия одного вмешательства или независимой переменной на одну или несколько зависимых переменных.Однако в предыдущих проектах предполагалось, что манипулирование независимой переменной приведет к большим немедленным изменениям зависимой (ых) переменной (ей). Напротив, основное допущение критерия изменения состоит в том, что зависимая переменная может увеличиваться или уменьшаться постепенно с пошаговыми изменениями зависимой переменной. Как правило, это достигается за счет того, что последствие (например, подкрепление) зависит от того, соответствует ли участник заранее определенному критерию. План с изменяющимся критерием можно рассматривать как особую разновидность планов с несколькими базовыми линиями, поскольку каждый этап служит базовым для следующего (Hartmann & Hall, 1976).Однако вместо того, чтобы иметь несколько базовых показателей для участников, настроек или поведения, план изменения критерия использует несколько уровней независимой переменной. Экспериментальный контроль демонстрируется, когда поведение многократно меняется, чтобы соответствовать новому критерию (т. Е. Уровню независимой переменной).

показаны результаты исследования Фэкон, Сахири и Ривьере (2008). В этом исследовании для увеличения громкости речи ребенка с избирательным мутизмом и умственной отсталостью использовалась процедура подкрепления токена.На исходном этапе речь ребенка была едва слышна, в среднем 43 дБ. Для каждой новой фазы в условиях лечения был установлен уровень критерия громкости речи, который диктовал, какой уровень успеваемости должен был продемонстрировать ребенок, чтобы заработать жетоны подкрепления. Горизонтальные линии на графике представляют набор критериев для каждой фазы. Чтобы гарантировать успех студента во время вмешательства, исходный критерий был установлен на уровне 43 дБ. Исследователи установили априорные правила принятия решений для изменения критерия: критерий будет повышен, если 80% высказываний ребенка в течение трех последовательных сессий будут равны текущему критерию или превышают его.Каждое новое значение критерия было равно средней громкости пяти лучших вербальных ответов во время последнего сеанса предыдущей фазы.

Объем речи во время вмешательства по усилению токена и последующего наблюдения с использованием дизайна с изменяющимся критерием. Из «Контролируемого единичного случая лечения тяжелого долгосрочного селективного мутизма у ребенка с умственной отсталостью», Фэкон, Сахири и Ривьер, (2008), Behavior Therapy, 39, p. 313. Авторские права 2008 г. принадлежат Elsevier. Печатается с разрешения.

Дизайн этого исследования соответствует стандартам WWCH, но с оговорками. Исследователи активно манипулировали независимой переменной (в данном случае системой усиления токенов с возрастающим критерием в децибелах), а зависимая переменная систематически измерялась с течением времени. Каждая фаза включала минимум три точки данных (но не пять точек, необходимых для полного соответствия стандартам), а количество фаз с различными критериями намного превышало минимум три требуемых.

При визуальном осмотре результаты подтверждают эффективность вмешательства. Между различными фазами критериев было несколько перекрывающихся точек данных, и изменения критерия обычно приводили к немедленному увеличению целевого поведения. Эти результаты были бы дополнительно усилены включением в критерий двунаправленных изменений или мини-разворотов (Kazdin, 2010). Такие временные изменения уровня зависимой меры в направлении, противоположном направлению воздействия лечения, усиливают экспериментальный контроль, поскольку они демонстрируют, что зависимая переменная зависит от независимой переменной.Таким образом, гораздо менее вероятно, что двунаправленные изменения являются результатом посторонних факторов. Тем не менее, результаты не показали никаких доказательств отсутствия эффекта, и результаты будут считаться убедительными доказательствами в пользу вмешательства.

Преимущества и недостатки планов с изменяющимся критерием

Планы с изменяющимся критерием идеальны для поведения, для которого нереально ожидать, что большие, немедленные изменения совпадают с манипуляциями с независимой переменной. Они не требуют отмены лечения и, следовательно, не вызывают никаких этических проблем, связанных с отменой потенциально полезных методов лечения.В отличие от планов с несколькими базовыми линиями / несколькими зондами, исследования с изменяющимся критерием требуют только одного участника, поведения и настройки. Однако не все вмешательства можно изучить с использованием дизайна с изменяющимся критерием; могут использоваться только вмешательства, в которых могут быть использованы последствия для соответствия или несоответствия установленным уровням критериев поведения. Кроме того, поскольку участник должен соответствовать определенному критерию для контакта с непредвиденным обстоятельством, участник должен иметь определенный уровень целевого поведения в своем репертуаре до начала исследования.Планы с изменяющимся критерием не подходят для поведения, которое является серьезным или опасным для жизни, потому что они не приводят к немедленным существенным изменениям. Однако для обучения многим сложным задачам подходящей стратегией является формирование поведения с помощью ряда поэтапных шагов, а дизайн с изменяющимся критерием — хороший вариант для демонстрации эффективности вмешательства.

Планы с множественным лечением

До сих пор описанные нами схемы подходят только для ответа на вопросы, касающиеся эффектов одного вмешательства или переменной.Однако во многих случаях исследователи — будь то исследователи, преподаватели или клиницисты — заинтересованы не только в том, работает ли вмешательство, но и в том, работает ли оно лучше, чем альтернативное вмешательство. Одна из стратегий сравнения эффектов двух вмешательств состоит в том, чтобы просто расширить логику схем отмены, включив в нее больше фаз и больше состояний. Наиболее простой дизайн этого типа — это дизайн ABACAC, который начинается с дизайна ABA и сопровождается дизайном CAC.Вторая фаза «А» действует как условие отмены для части эксперимента с ABA и как базовая фаза для части ACAC. Этот дизайн идеален в ситуациях, когда было запланировано исследование ABA или ABAB, но эффекты вмешательства не были такими значительными, как ожидалось. В этих условиях вмешательство может быть изменено или выбрано другое вмешательство, и эффекты нового вмешательства могут быть продемонстрированы. Этот дизайн имеет те же преимущества и недостатки, что и базовые схемы отмены, но позволяет сравнивать эффекты для двух различных методов лечения.Однако серьезным недостатком является то, что логика SSED позволяет сравнивать только соседние условия. Это ограничение помогает свести к минимуму угрозы внутренней валидности, такие как созревание, которые могут привести к постепенным изменениям в поведении с течением времени, независимо от условий обучения. В результате нецелесообразно комментировать относительные эффекты вмешательств (т.е. фазы «B» и «C») в исследовании ABACAC, потому что они никогда не происходят рядом друг с другом. Скорее, можно только сделать вывод, что одно, оба или ни одно из вмешательств являются эффективными по сравнению с исходным уровнем.С другой стороны, начиная с схемы полной отмены или отмены (ABAB), за которой следует демонстрация эффектов второго вмешательства (CAC, что приводит к ABABCAC), позволяет провести прямое сравнение двух вмешательств. Однако сравнение BC никогда не повторяется в этой последовательности, что ограничивает внутреннюю достоверность сравнения.

Помимо сравнения относительных эффектов двух или более различных вмешательств, можно использовать схемы с несколькими фазами лечения для оценки дополнительных эффектов компонентов лечения.Например, если пакет лечения состоит из двух отдельных компонентов (компоненты «B» и «C»), можно определить, вызваны ли эффекты вмешательства только одним компонентом или необходимы оба. Ward-Horner и Sturmey (2010) определили два метода для проведения анализа компонентов: выпавших, , в котором компоненты систематически удалялись из лечебного пакета, чтобы определить, сохранила ли лечение свою эффективность, и надстройки , в котором компоненты были оценивается индивидуально перед выполнением полного лечебного пакета.Каждый из этих методов имеет свои преимущества и недостатки (полное обсуждение см. В Ward-Horner & Sturmey, 2010), но вместе взятые, компонентный анализ может предоставить большой объем информации о необходимости и достаточности компонентов лечения. Кроме того, они могут дать информацию о стратегиях постепенного прекращения лечения при сохранении их эффекта.

Wacker et al. (1990) провели компонентный анализ процедур функциональной коммуникативной тренировки (FCT) для трех человек со сложным поведением.Данные, представленные в таблице, показывают процент интервалов с кусанием руки, подсказками и предписаниями (подписью) на этапах функционального анализа, пакета лечения и компонентного анализа. Результаты функционального анализа показали, что целевое поведение (кусание руки) поддерживалось за счет доступа к материальным ценностям, а также за счет ухода от требований. На втором этапе был реализован пакет лечения, который включал ПКТ и тайм-аут. К концу фазы целевое поведение было устранено, количество подсказок уменьшилось, а количество подписей увеличилось.Чтобы определить активные компоненты лечебного пакета, был проведен анализ выпадающих компонентов. Во-первых, компонент вмешательства был удален, оставив только компонент FCT. Наблюдалась тенденция к снижению жестов и усилению укусов рук. Это было отменено, когда был повторно введен полный пакет лечения. На третьем этапе компонентного анализа компонент FCT был удален, оставив тайм-аут и дифференциальное усиление другого поведения (DRO).Опять же, наблюдалась тенденция к снижению жестов и усилению укусов рук, которые снова обратились вспять, когда был применен полный пакет лечения.

Процент интервалов со сложным поведением и требованиями во время функционального анализа, демонстрации вмешательства и компонентного анализа. Из «Компонентного анализа тренировки функциональной коммуникации по трем топографиям серьезных поведенческих проблем», Wacker et al., 1990, Journal of Applied Behavior Analysis, 23, p.424. Авторское право 2008 г., Общество экспериментального анализа поведения. Печатается с разрешения.

В целом, визуальный осмотр этих данных является убедительным аргументом в пользу необходимости использования как FCT, так и компонентов тайм-аута для эффективности лечебного пакета, и в данных нет никаких признаков отсутствия эффекта. Однако конструкция не соответствует стандартам, установленным комиссией WWCH. Это связано с тем, что (а) последние две заключительные фазы лечения не включают минимум три точки данных и (б) фазы отдельных компонентов лечения (только FCT и тайм-аут / DRO) были реализованы только один раз каждая.В результате данные этого исследования не могли быть использованы для поддержки пакета лечения как доказательной практики по стандартам IES. Дополнительные точки данных в рамках каждого этапа, а также повторения этапов укрепят результаты исследования.

Одним из недостатков всех дизайнов, которые включают два или более вмешательства или независимые переменные, является возможность взаимного влияния нескольких процедур. Это происходит, когда один и тот же участник получает два или более лечения, эффекты которых могут не быть независимыми.В результате возможно, что порядок, в котором проводятся вмешательства, повлияет на результаты. Например, эффекты двух вмешательств могут быть аддитивными, так что эффекты вмешательства 2 усиливаются сверх того, что они должны быть, потому что вмешательство 2 следовало за вмешательством 1. По сути, это создает потенциал для эффекта порядка (или эффекта переноса) . В качестве альтернативы вмешательство 1 может иметь измеримые, но отсроченные эффекты на зависимую переменную, из-за чего может показаться, что вмешательство 2 является эффективным, когда результаты следует отнести к вмешательству 1.Такие возможности следует учитывать при планировании исследований по множественному лечению (см. Hains & Baer, ​​1989, для всестороннего обсуждения интерференции с множественным лечением). Заключительный, более длительный этап, на котором последнее «выигрышное» лечение реализуется в течение продолжительного времени, может помочь снять некоторые опасения, связанные с вмешательством множественного лечения.

Преимущества и недостатки схем с множественным лечением

Такие схемы, как ABCABC и ABCBCA, могут быть очень полезны, когда исследователь хочет изучить эффекты двух вмешательств.Эти планы обеспечивают убедительные доказательства внутренней валидности эффективности вмешательств. Однако внешняя действительность может быть поставлена ​​под угрозу из-за угрозы множественного вмешательства. Кроме того, применяются те же преимущества и недостатки проектов ABAB, включая проблемы, связанные с обратимостью целевого поведения. Несмотря на свои ограничения, эти конструкции могут предоставить надежные эмпирические данные, на которых можно принимать решения относительно выбора лечения для отдельного клиента.Хотя теоретически эти типы схем могут быть расширены для сравнения любого количества вмешательств или состояний, выполнение этого более двух становится чрезмерно обременительным; поэтому следует рассмотреть вариант чередования обработок.

Альтернативные методы лечения и адаптированные альтернативные варианты лечения

Дизайн альтернативных методов лечения (ATD)

Логика ATD аналогична схемам множественного лечения, и типы исследовательских вопросов, которые он может решить, также сопоставимы.Основное различие состоит в том, что ATD включает быстрое чередование двух или более вмешательств или состояний (Barlow & Hayes, 1979). Сбор данных обычно начинается с фазы исходного уровня (A), аналогичной фазе исследования множественного лечения, но на следующем этапе каждый сеанс случайным образом назначается одному из двух или более условий вмешательства. Поскольку больше нет отдельных этапов каждого вмешательства, интерпретация результатов исследований ATD отличается от исследований, рассмотренных до сих пор.Вместо того, чтобы сравнивать фазы, все точки данных в пределах условия (например, все сеансы вмешательства 1) подключаются (даже если они не происходят рядом). Демонстрация экспериментального контроля достигается за счет различения условий, что означает, что пути данных условий не перекрываются.

В ATD важно, чтобы все потенциальные «мешающие» переменные контролировались или уравновешивались. Например, если разные экспериментаторы проводят сеансы в разных условиях или запускают разные условия сеанса в разное время дня, это может повлиять на результаты, помимо влияния указанных независимых переменных.Следовательно, все экспериментальные процедуры должны быть проанализированы, чтобы убедиться, что все условия идентичны, за исключением интересующей переменной (переменных). Представление условий в случайном порядке может помочь устранить проблемы, связанные с временными циклами поведения, а также обеспечить равное количество сеансов для каждого условия.

Ланг и его коллеги (2011) использовали ATD для изучения влияния языка обучения на правильную реакцию и несоответствующее поведение (щелчки языком) с учеником с аутизмом из испаноязычной семьи.Чтобы условия были эквивалентными, все аспекты учебных занятий, за исключением независимой переменной (язык обучения), оставались неизменными. В частности, один и тот же учитель, материалы, требования к заданиям, подкрепления и расписания подкреплений использовались как на уроках английского, так и на испанском языках.

Результаты этого исследования (см.) Продемонстрировали, что учащийся показал большее количество правильных ответов и проявил меньше вызывающего поведения, когда обучение велось на испанском языке, чем на английском.В этом случае преимущество испанского языка было очевидным, потому что не было совпадений в правильных ответах или несоответствующем поведении между английскими и испанскими условиями.

Количество правильных ответов и щелчков языком во время отдельных пробных тренировок на испанском (Sp.) И английском (англ.) Языках с использованием альтернативного дизайна лечения. Из «Влияние языкового обучения на точность ответов и вызывающее поведение у ребенка с аутизмом», автор: Lang et al., 2011, Journal of Behavioral Education, 20, p.256. Авторское право 2001 г., Springer Science + Business Media, LLC. Печатается с разрешения.

Хотя визуальный анализ подтвердил вывод о том, что эффекты лечения были функционально связаны с независимой переменной, результаты этого исследования не соответствовали стандартам дизайна, установленным комиссией WWCH, поскольку дизайн состоял только из двух обработок по сравнению друг с другом. Чтобы соответствовать критерию наличия как минимум трех попыток продемонстрировать эффект, исследования с использованием ATD должны включать прямое сравнение трех вмешательств или двух вмешательств по сравнению с исходным уровнем.Чтобы считаться поддержкой практики, основанной на фактических данных, этот план должен включать в себя третье условие вмешательства или начинаться с исходного состояния.

Адаптированный дизайн чередующегося лечения (AATD)

Одна из широко используемых альтернатив ATD называется адаптированный дизайн чередующегося лечения (AATD; Sindelar, Rosenburg, & Wilson, 1985). В то время как традиционный ATD оценивает влияние различных вмешательств или независимых переменных на одну переменную результата, в AATD каждому вмешательству или независимой переменной назначается другой набор ответов.Полученный в результате дизайн аналогичен дизайну с несколькими базовыми линиями, охватывающими разные поведения, с одновременным обучением всем поведенческим моделям. Например, Конаган, Сингх, Мо, Ландрам и Эллис (1992) назначили разные наборы из 10 фраз для каждого из трех условий (направленная репетиция, направленная репетиция плюс положительное подкрепление и контроль). Эта стратегия позволила исследователям определить, различается ли приобретение новых подписанных фраз в трех условиях. показывает правильные ответы одного участника во время сеансов на базовых фазах, чередующихся фазах лечения и расширенных фазах лечения.

Количество фраз, подписанных правильно во время направленной репетиции, направленной репетиции с положительным подкреплением и контрольных сеансов с использованием адаптированного дизайна чередующихся обработок. Из «Приобретение и обобщение мануальных знаков взрослыми с нарушениями слуха и умственной отсталостью», авторы Конаган, Сингх, Мо, Ландрам и Эллис, 1992, журнал Journal of Behavioral Education, 2, p. 192. Авторское право 1992 г., Human Sciences Press. Печатается с разрешения.

В отличие от Lang et al.(2011), дизайн, использованный в этом исследовании, соответствовал стандартам WWCH. Это было связано с тем, что, помимо минимального количества сеансов на фазу, она включала прямое сравнение трех условий, а также прямое сравнение с базовой фазой. Данные базовой фазы показали, что участник не ответил правильно в отсутствие вмешательства. Данные фазы чередования обработок подтвердили эффективность направленной репетиции и направленной репетиции плюс условия положительного подкрепления по сравнению с контрольным условием.Они также подтвердили относительную эффективность направленной репетиции с подкреплением по сравнению с одной направленной репетицией.

Во время первых четырех сеансов фазы чередования обработок ответ оставался на нуле для всех трех наборов слов. Неуклонно возрастающие тенденции наблюдались в обоих условиях направленной репетиции, начиная с пятой сессии, в то время как ответная реакция оставалась нулевой в контрольных условиях. Скорость освоения в условиях направленной репетиции плюс положительное подкрепление была выше, чем при одной направленной репетиции на протяжении фазы чередования обработок.Задержка правильного ответа, наблюдаемая во время начальных сеансов чередующегося лечения, демонстрировала отсутствие эффекта. Однако тот факт, что в контрольном состоянии изменений в реакции не наблюдалось, свидетельствует о том, что изменения были вызваны вмешательством, а не результатом какого-либо фактора вне исследования. В качестве дополнительной демонстрации экспериментального эффекта направленной репетиции плюс подкрепления было реализовано последнее условие, в котором лечебный пакет использовался для обучения фразам из двух других условий.Это условие еще больше усилило доказательства эффективности вмешательства, так как эффективность по всем трем наборам слов достигла 100% к концу фазы. В целом, латентность изменения, наблюдаемая во время фазы чередования курсов лечения, означала, что это исследование заслуживает оценки умеренных доказательств в пользу вмешательства.

Преимущества и недостатки ATD и AATD

ATD и AATD могут быть полезны при сравнении эффектов двух или более вмешательств или независимых переменных.В отличие от планов с множественным лечением, эти дизайны позволяют проводить множественные сравнения за относительно небольшое количество сеансов. Проблемы, связанные с вмешательством множественного лечения, также актуальны для ATD, потому что зависимая переменная подвержена влиянию каждой из независимых переменных, что делает невозможным разделение их независимых эффектов. Чтобы выбранный метод лечения оставался эффективным при его применении отдельно, рекомендуется заключительная фаза, демонстрирующая эффекты наилучшего лечения (Holcombe & Wolery, 1994), как это было сделано в исследовании Conaghan et al., 1992. Многие исследователи сочетают независимые, но заметные стимулы с каждым лечением (например, комнату, цвет одежды и т. Д.), Чтобы участники могли различать, какое вмешательство действует во время каждого сеанса (McGonigle, Rojahn, Dixon, И Штамм, 1987). Тем не менее, поведение результата должно быть легко обратимым, чтобы продемонстрировать различие между условиями.

AATD устраняет некоторые опасения, связанные с помехами при множественном лечении, поскольку разное поведение подвержено различным условиям.Как и в планах с несколькими базовыми линиями / несколькими зондами, необходимо учитывать возможность обобщения по поведению и предпринимать шаги для обеспечения независимости выбранного поведения. Кроме того, необходимо следить за тем, чтобы ответы на разные условия были одинаковыми по сложности.

Рассмотрев логику, лежащую в основе SSED, базовый подход к анализу (визуальный осмотр, основанный на наблюдаемых изменениях уровня, тенденции и изменчивости) и основные стратегии для организации условий (т.д., типы дизайна), в следующем разделе мы кратко обсудим ряд вопросов количественной оценки, касающихся SSED. Проблемы актуальны из-за WWCH и связанных с ним усилий по установлению стандартных подходов к оценке наборов данных SSED, а также из-за проблемы того, можно ли и как получить стандартизированные размеры эффекта из наборов данных SSED для включения в количественный синтез (т. Е. Метаанализ). .

Выводы

В отличие от исследовательских вопросов, которые часто задаются в исследованиях с использованием традиционных групповых дизайнов, исследования с использованием SSED могут рассматривать влияние стратегий вмешательства и переменных окружающей среды на результативность на индивидуальном уровне.Методология SSED позволяет гибко изменять независимую переменную в рамках исследования, когда это не приводит к желаемому или ожидаемому эффекту и не ставит под угрозу целостность экспериментального плана. В результате методология SSED представляет собой полезную альтернативу РКИ (и квазиэкспериментальным группам) с целью эмпирической демонстрации эффективности вмешательства или, альтернативно, определения лучшего из двух или более возможных вмешательств. SSED идеально подходят как для исследователей, так и для клиницистов, работающих с небольшими или очень разнородными группами населения при разработке и внедрении доказательной практики.Сильная внутренняя валидность хорошо проведенных исследований SSED позволяет проводить визуальный и, при некоторых обстоятельствах, статистический анализ данных для подтверждения уверенных выводов — по словам Министерства образования США — о том, «что работает».

Каздин (2010), Хорнер и др. (2005) и другие выдвинули на первый план вопрос о том, что РКИ в рамках традиционных исследований вероятностного группового дизайна отдается предпочтению среди политиков, агентств по предоставлению грантов и практиков, которые выбирают вмешательства на основе доказательной базы.Они также подчеркивают важную роль, которую SSED могут и должны играть в этом процессе. Конкретные критерии, разработанные группой WWCH, подчеркивают важность сильных экспериментальных планов — и повторения, если SSED должны серьезно восприниматься как инструмент в рамках создания практики, основанной на фактах. Речевые, языковые и слуховые вмешательства по своей природе направлены на улучшение результатов для отдельных клиентов или участников исследования. Оценка этих вмешательств в рамках SSED и связанный с ними визуальный и статистический анализ данных придает строгость клинической работе, логически и методологически согласуется с исследованиями вмешательства в этой области и может служить общей основой для принятия решений с коллегами в области CSD и за ее пределами.

Рандомизированные индивидуальные схемы фазы AB: перспективы и подводные камни

Одноразовые экспериментальные схемы (SCED) могут использоваться для оценки эффектов лечения для конкретных людей или для оценки эффективности индивидуализированного лечения. В таких планах повторные наблюдения записываются для одного человека в зависимости от интересующей зависимой переменной, и лечение можно рассматривать как один из уровней независимой переменной (Barlow, Nock, & Hersen, 2009; Kazdin, 2011; Onghena, 2005).SCED широко используются в качестве методологического инструмента в различных областях науки, включая клиническую психологию, школьную психологию, специальное образование и медицину (Alnahdi, 2015; Chambless & Ollendick, 2001; Gabler, Duan, Vohra, & Kravitz, 2011; Hammond & Gast, 2010; Kratochwill & Stoiber, 2000; Leong, Carter, & Stephenson, 2015; Shadish & Sullivan, 2011; Smith, 2012; Swaminathan & Rogers, 2007). О растущем интересе к этим типам дизайнов можно судить по недавней публикации руководящих принципов по отчетности о результатах SCED в различных областях образования, поведения и здравоохранения (Shamseer et al., 2015; Тейт и др., 2016; Vohra et al., 2015).

SCED часто путают с тематическими исследованиями или другими неэкспериментальными исследованиями, но эти типы исследований следует четко различать друг от друга (Onghena & Edgington, 2005). Более конкретно, SCED включают в себя преднамеренное манипулирование независимой переменной, тогда как такое манипулирование отсутствует в неэкспериментальных тематических исследованиях. Кроме того, отчет о результатах SCED обычно включает визуальный и статистический анализ, тогда как тематические исследования часто излагаются в описательной форме.

SCED также следует отличать от экспериментальных проектов, основанных на сравнении групп. Принципиальное различие между SCED и экспериментальным дизайном между участниками касается определения экспериментальных единиц. В то время как экспериментальные единицы в исследованиях сравнения групп относятся к участникам, отнесенным к разным группам, экспериментальные единицы в SCED относятся к повторным измерениям конкретных исследуемых объектов (например, человека), которым назначены разные виды лечения (Edgington & Onghena, 2007). .Существуют различные типы SCED. В следующем разделе мы обсудим типологию одноразовых дизайнов.

Типология одноразовых экспериментальных планов

Исчерпывающую типологию SCED можно построить с использованием трех измерений: (1) является ли проект фазовым или альтернативным, (2) содержит ли план случайное присвоение и (3) повторяется ли дизайн. Мы обсудим каждый из этих аспектов по очереди.

Тип конструкции

Различные типы SCED можно в целом разделить на два основных типа: схемы фаз и схемы чередования (Heyvaert & Onghena, 2014; Onghena & Edgington, 2005; Rvachew & Matthews, 2017), хотя возможны гибриды обоих типов (см. E .г., Левин, Феррон, Гафуров, 2014; Onghena, Vlaeyen, & de Jong, 2007). Фазовые планы делят последовательность случаев измерения в одноразовом эксперименте (SCE) на отдельные фазы лечения, причем каждая фаза содержит несколько измерений (Edgington, 1975a, 1980; Onghena, 1992). Основным строительным блоком фазовых схем является план фазы AB, который включает последовательность базовой фазы (A) и фазы лечения (B). Эту базовую схему можно расширить, включив в нее больше фаз A или B, что приведет к более сложным схемам фаз, таким как схемы ABA и ABAB.Кроме того, также возможно построить фазовые планы, которые сравнивают более двух обработок (например, план ABC). В отличие от фазовых схем, схемы с чередованием не содержат отдельных фаз, а скорее включают быстрое изменение экспериментальных условий на протяжении всего периода SCE. Следовательно, эти конструкции предназначены для исследовательских ситуаций, в которых возможно быстрое и частое чередование методов лечения (Barlow & Hayes, 1979; Onghena & Edgington, 1994). Некоторые общие схемы с чередованием включают полностью рандомизированный план (CRD), рандомизированный блочный дизайн (RBD) и дизайн с чередованием лечения (ATD, Onghena, 2005).Манолов и Онгена (2017) предоставляют недавний обзор использования ATD в опубликованных исследованиях отдельных случаев и обсуждают различные методы анализа данных для этого типа дизайна.

Случайное назначение

Когда метки лечения случайным образом назначаются случаям измерения в SCED, получается рандомизированный SCED. Эта процедура случайного распределения в SCED аналогична тому, как субъекты случайным образом распределяются по экспериментальным группам в межпредметном дизайне.Основное отличие состоит в том, что в SCED случаи повторных измерений для одного субъекта рандомизируются по двум или более экспериментальным условиям, тогда как в межгрупповых исследованиях отдельные участники рандомизируются по двум или более экспериментальным группам. Способ рандомизации SCED зависит от типа дизайна. Планы фаз можно рандомизировать, перечислив все возможные начальные точки вмешательства и затем случайным образом выбрав одну из них для проведения фактического эксперимента (Edgington, 1975a).Рассмотрим, например, схему AB, состоящую из фазы базовой линии (A) и фазы лечения (B), с в общей сложности десятью измерениями и минимум тремя измерениями на фазу. Для этой конструкции существует шесть возможных начальных точек для вмешательства, ведущих к следующим разделам случаев измерения:

  • AAABBBBBBB

  • AAAABBBBBB

  • AAAAABBBBB

  • AAAAAABBA

  • AAAAAABBA

Этот тип рандомизации также может применяться к более сложным схемам фаз, таким как схемы фаз ABA или ABAB, путем случайного выбора временных точек для всех моментов изменения фазы в схеме (Onghena, 1992).Планы с чередованием рандомизируются путем введения схемы рандомизации для набора случаев измерения, в которых условия лечения могут меняться на протяжении всего эксперимента. CRD — это простейшая схема чередования, поскольку она отличается «неограниченной рандомизацией». В этой схеме необходимо фиксировать только количество измерений для каждого уровня независимой переменной. Например, если мы рассмотрим гипотетический SCED с двумя условиями (A и B) и тремя случаями измерения для каждого условия, существует 20 возможных рандомизаций \ (\ left (\ genfrac {} {} {0pt} {} {6} {3 } \ right) \) с использованием CRD:

BBAABA BBA BBAABA BBA BABBAA
AAABBB BBBAAA
AABABB BBABAA
AABBAB BBAABA
ABABAB BABABA
ABABBA BABAAB
ABBAAB BAABBA
ABBABA 9019 9019 9019 ABBABA 9018

Схемы рандомизации для RBD или ATD могут быть построены путем наложения дополнительных ограничений на схему рандомизации CRD.Например, RBD получается путем группирования случаев измерения в пары и рандомизации порядка обработки в каждой паре. Для того же количества случаев измерения, что и в приведенном выше примере, RBD дает 2 3 = 8 возможных рандомизаций, которые являются подмножеством рандомизации CRD.

9036

Этот тип рандомизации может быть полезен для противодействия влиянию переменных, связанных со временем, на зависимую переменную, поскольку рандомизация внутри пар (или блоков определенного) размера устраняет любые связанные со временем эффекты, которые могут возникнуть в этих парах.Схема рандомизации ATD может быть построена на основе схемы рандомизации CRD с ограничением, что только определенное максимальное количество последовательных случаев измерения может иметь одинаковое лечение, что обеспечивает быструю смену лечения. Используя пример нашей гипотетической SCED, ATD с максимальным количеством двух последовательных введений одного и того же состояния дает следующие 14 рандомизаций:

ABABAB BABABA
ABABBA BABAAB
ABBAAB BAABBA
ABBABA
BAABBA

Еще раз обратите внимание, что все эти рандомизации являются подмножеством рандомизации CRD.Многие авторы подчеркивали важность рандомизации SCED для создания обоснованных выводов (например, Dugard, 2014; Dugard, File, & Todman, 2012; Edgington & Onghena, 2007; Heyvaert, Wendt, Van den Noortgate, & Onghena, 2015; Kratochwill & Левин, 2010). Преимущества и важность включения случайного распределения в SCED также подчеркиваются в недавно разработанных руководящих принципах по представлению результатов SCE, таких как расширение CONSORT для отчетности об испытаниях N -of-1 (Shamseer et al., 2015; Vohra et al., 2015) и руководящие принципы отчетности по отдельным случаям в заявлении о поведенческих вмешательствах (Tate et al., 2016). SCED, которые не включают какую-либо форму случайного распределения, по-прежнему являются экспериментальными проектами в том смысле, что они демонстрируют преднамеренное манипулирование независимой переменной, поэтому их все же следует отличать от неэкспериментальных исследований, таких как тематические исследования. При этом отсутствие случайного распределения в SCED затрудняет исключение альтернативных объяснений возникновения лечебного эффекта, тем самым ослабляя внутреннюю валидность дизайна.Кроме того, следует отметить, что включение рандомизации в SCED все еще относительно редко во многих областях исследований.

Реплика

Следует отметить, что исследовательские проекты и публикации об отдельных исследованиях редко включают в себя только один SCED, и это обычно нацелено на тиражирование. Kratochwill et al. (2010) отметили, что репликация также увеличивает внутреннюю достоверность SCED. В этом смысле важно подчеркнуть, что рандомизацию и репликацию следует использовать одновременно для повышения внутренней достоверности SCED.Репликация может происходить двумя разными способами: одновременно или последовательно (Onghena & Edgington, 2005). Одновременные схемы репликации влекут за собой одновременное выполнение нескольких схем чередования или фаз. Наиболее широко используемый дизайн одновременной репликации — это дизайн с несколькими базовыми линиями для разных участников, который сочетает в себе два или более планов фазы (обычно схемы фазы AB), в которых лечение проводится с временной разницей для отдельных участников (Hammond & Gast, 2010; Шадиш и Салливан, 2011). Последовательные проекты репликации предполагают последовательное проведение отдельных SCE, чтобы проверить возможность обобщения результатов для других участников, условий или исходов (Harris & Jenson, 1985; Mansell, 1982). Также для этой части типологии можно создавать гибридные дизайны, комбинируя одновременные и последовательные функции, например, последовательно реплицируя множественные базовые планы для всех участников или используя так называемый «несовпадающий множественный базовый дизайн», только частичное временное перекрытие (Harvey, May, & Kennedy, 2004; Watson & Workman, 1981).Обратите внимание, что были предложены альтернативные таксономии SCED (например, Gast & Ledford, 2014). В центре внимания данной статьи находится план фазы AB, также известный как план прерывистого временного ряда (Кэмпбелл и Стэнли, 1966; Кук и Кэмпбелл, 1979; Шадиш, Кук и Кэмпбелл, 2002).

План фазы AB для одного случая

Схема фазы AB является одним из самых основных и практически осуществимых экспериментальных дизайнов для оценки лечения в исследовании одного случая.Несмотря на широкое практическое использование, схема фазы AB подверглась критике за ее низкую внутреннюю достоверность (Campbell, 1969; Cook & Campbell, 1979; Kratochwill et al., 2010; Shadish et al., 2002; Tate et al., 2016; Vohra et al., 2015). Некоторые авторы оценили план фазы AB как «квазиэкспериментальный» или даже «неэкспериментальный», потому что отсутствие фазы обращения лечения делает дизайн уязвимым для внутренних угроз валидности, связанных с историей и созреванием (Kratochwill et al., 2010; Tate и другие., 2016; Vohra et al., 2015). История относится к мешающему влиянию внешних факторов на лечебный эффект в ходе эксперимента, тогда как созревание относится к изменениям внутри субъекта в ходе эксперимента, которые могут влиять на лечебный эффект (Campbell & Stanley, 1966 ). Эти смешанные эффекты могут служить альтернативными объяснениями возникновения лечебного эффекта, отличного от экспериментальной манипуляции, и как таковые угрожают внутренней достоверности SCED.Kratochwill et al. утверждают, что внутренние угрозы достоверности истории и созревания смягчаются, когда SCED содержат по крайней мере два повторения пары фаз AB. Более конкретно, их аргумент состоит в том, что вероятность того, что эффекты анамнеза (например, участник заболеет во время эксперимента), возникающие одновременно с введением лечения, меньше, когда есть несколько введений лечения, чем в ситуации, в которой есть только одно введение лечения.Точно так же, чтобы уменьшить влияние потенциальных эффектов созревания (например, спонтанное улучшение участника, приводящее к восходящей или нисходящей тенденции данных) на внутреннюю валидность SCED, Kratochwill et al. утверждают, что SCED должен иметь возможность записывать по крайней мере три демонстрации лечебного эффекта. По этим причинам они утверждают, что только схемы фаз с по крайней мере двумя повторениями пары фаз AB (например, схема ABAB) являются допустимыми SCED, и что конструкции только с одним повторением пары фаз AB (например.g., план фазы AB) неадекватны для того, чтобы сделать правильные выводы. Аналогичным образом Tate et al. и Vohra et al. не рассматривайте проект фазы AB как действительный SCED. Более конкретно, Tate et al. рассматривать схему фазы AB как квазиэкспериментальную схему, а Vohra et al. даже рассматривать схему фазы AB как неэкспериментальную схему, помещая ее под тем же ярлыком, что и тематические исследования. В отличие от этого, классификация SCED, разработанная Логаном, Хикманом, Харрисом и Херизой (2008), действительно включает схему фазы AB в качестве действующей схемы.

Вместо использования дискретных классификаций мы предлагаем постепенный подход к оценке внутренней достоверности SCED. В оставшейся части этой статьи мы будем утверждать, что рандомизированные схемы фазы AB занимают важное место в методологическом наборе инструментов индивидуального исследователя как действительные SCED. Мы считаем, что рандомизированный план фазы AB можно использовать в качестве основного экспериментального плана для ситуаций, в которых этот план является единственным возможным способом сбора экспериментальных данных (например,, при оценке лечения, которое нельзя отменить из-за характера лечения или из-за этических соображений). Мы построим этот аргумент в несколько этапов. Во-первых, мы объясним, как случайное распределение усиливает внутреннюю валидность планов фазы AB по сравнению с планами фазы AB без случайного распределения, и обсудим, как можно повысить внутреннюю валидность планов фазы AB с помощью репликации и формального статистического анализа. . Во-вторых, после упоминания некоторых общих статистических методов для анализа рандомизированных планов фазы AB мы обсудим использование статистической техники, которая может быть непосредственно получена из случайного распределения, которое присутствует в схемах рандомизированной фазы AB: тест рандомизации (RT).Кроме того, мы обсудим некоторые потенциальные ошибки анализа данных, которые могут возникнуть при анализе рандомизированных планов фазы AB, и обсудим, как использование RT может смягчить некоторые из этих ошибок. Кроме того, мы предоставим рабочий пример того, как схемы фазы AB могут быть рандомизированы и впоследствии проанализированы с помощью RT с использованием метода рандомизации, предложенного Эджингтоном (1975a). В-третьих, мы продемонстрируем валидность RT при анализе рандомизированных планов фазы AB, содержащих конкретное проявление эффекта созревания: неожиданный линейный тренд, который возникает в данных, приводящий к постепенному увеличению оценок зависимой переменной, которая не связана с администрация лечения.Более конкретно, мы покажем, что RT контролирует частоту ошибок типа I, когда в данных присутствуют неожиданные линейные тренды. Наконец, мы также представим результаты имитационного исследования, в котором изучалась мощность RT при анализе рандомизированных планов фазы AB, содержащих различные комбинации неожиданных линейных тенденций в исходной фазе и / или фазе лечения. Помимо контролируемой частоты ошибок типа I, еще одним критерием применимости RT для конкретных типов наборов данных является адекватная мощность.Предыдущие исследования уже исследовали влияние различных уровней автокорреляции на мощность RT в рандомизированных схемах фазы AB, но только для данных без тенденции (Ferron & Ware, 1995). Тем не менее, исследование Соломона (2014) показало, что тенденция довольно распространена в исследованиях отдельных случаев, что делает важным исследовать влияние эффектов тенденции на мощность RT.

Рандомизированные планы AB-фазы являются действительными экспериментальными планами для одного случая

Есть несколько причин, по которым использование рандомизированных схем AB-фазы следует рассматривать для проведения одноразового исследования.Прежде всего, рандомизированный план фазы AB содержит все необходимые элементы, чтобы соответствовать определению SCED: план, который включает повторяющиеся измерения зависимой переменной и преднамеренное экспериментальное манипулирование независимой переменной. Во-вторых, рандомизированный план фазы AB является наиболее осуществимым для одного случая лечения, которое не может быть отменено по практическим или этическим причинам, а также наиболее экономичным и наиболее легко реализуемым из всех схем фазы (Heyvaert et al., 2017). В-третьих, если бы отдельные рандомизированные схемы фазы AB были отклонены как недействительные, и если бы была осуществима только рандомизированная схема фазы AB, учитывая саму природу психологических и образовательных вмешательств, которые нельзя отменить или считать отмененными, тогда практикующим врачам не рекомендуется использовать SCED. в целом, и потенциально важные экспериментальные данные никогда не будут собраны.

Мы признаем, что внутренние угрозы действительности, связанные с историей и созреванием, должны быть приняты во внимание при выводе выводов из планов фазы AB.Более того, мы согласны с точкой зрения Kratochwill et al. (2010), что проекты с несколькими парами фаз AB (например, конструкция ABAB) обеспечивают лучшую защиту от угроз для внутренней достоверности, чем проекты только с одной парой фаз AB (например, конструкция фазы AB). Тем не менее, мы также утверждаем, что внутреннюю валидность базовой схемы фазы AB можно усилить несколькими способами.

Во-первых, внутреннюю валидность плана фазы AB (а также других SCED) можно значительно повысить, включив в план случайное распределение (Heyvaert et al., 2015). Случайное назначение может нейтрализовать потенциальные эффекты анамнеза в SCED, поскольку случайное сопоставление случаев измерения с условиями лечения позволяет нам статистически контролировать мешающие переменные, которые могут проявляться на протяжении всего эксперимента. Аналогичным образом, случайное распределение может также нейтрализовать потенциальные эффекты созревания, потому что любые поведенческие изменения, которые могут произойти внутри субъекта, не связаны со случайным распределением случаев измерения для условий лечения (Edgington, 1996).Эджингтон (1975a) предложил способ включения случайного распределения в план фазы AB. Поскольку последовательность фаз в схеме фазы AB фиксирована, случайное распределение должно соответствовать этой структуре фаз. Поэтому Эджингтон (1975a) предложил рандомизировать начальную точку фазы лечения. В этом подходе исследователь первоначально определяет общее количество случаев измерения, которые должны быть включены в план, вместе с ограничениями на минимальное количество случаев измерения, которые должны быть включены в каждую фазу.Это приводит к ряду потенциальных отправных точек для фазы лечения. Затем исследователь случайным образом выбирает одну из этих начальных точек для проведения фактического эксперимента. Путем рандомизации начальной точки фазы лечения в схеме фазы AB становится возможным оценить эффект лечения для каждой из гипотетических начальных точек из процесса рандомизации и сравнить эти гипотетические эффекты лечения с наблюдаемым эффектом лечения с начальной точки, которая был использован для фактического эксперимента.При предположении, что потенциальные смешивающие эффекты, такие как предыстория и созревание, постоянны для различных возможных начальных точек фазы лечения, эти эффекты становятся менее правдоподобными в качестве альтернативных объяснений в случае обнаружения статистически значимого эффекта лечения. Таким образом, включение случайного назначения в проект фазы AB может также обеспечить защиту от угроз внутренней достоверности без необходимости добавления дополнительных фаз в проект. Этот метод рандомизации начальных точек в планах фазы AB можно легко распространить на более сложные схемы фазы, такие как планы ABA или ABAB, путем генерации случайных начальных точек для каждого момента изменения фазы в схеме (Левин и др., 2014; Онгена, 1992).

Во-вторых, внутренняя валидность рандомизированных планов фазы AB может быть дополнительно увеличена за счет повторений, и реплицированные рандомизированные планы фазы AB приемлемы по большинству стандартов (например, Kratochwill et al., 2010; Tate et al., 2016). Когда лечебный эффект может быть продемонстрирован в нескольких реплицированных рандомизированных схемах фазы AB, это снижает вероятность того, что этот лечебный эффект вызван историей или эффектами созревания, а не самим лечением.Фактически, когда несколько рандомизированных схем фазы AB воспроизводятся среди участников и лечение проводится поэтапно среди участников, получается многократный исходный дизайн для всех участников, который принимается в качестве действительного SCED в соответствии со многими стандартами (Kratochwill et al., 2010; Logan et al., 2008; Tate et al., 2016; Vohra et al., 2015).

В-третьих, можно увеличить вероятность сделать достоверные выводы из рандомизированных планов фазы AB, анализируя их статистически с помощью адекватных статистических методов.Многие методы анализа данных для одноразовых исследований сосредоточены в основном на анализе рандомизированных планов фазы AB и усилении полученных выводов (например, анализ прерывистых временных рядов, Borckardt & Nash, 2014; Gottman & Glass, 1978; меры величины эффекта без перекрытия, Parker, Vannest, & Davis, 2011; многоуровневое моделирование, Van den Noortgate & Onghena, 2003). Кроме того, можно проанализировать рандомизированный план фазы AB с помощью статистического теста, который непосредственно выводится из случайного распределения, присутствующего в плане: RT (Kratochwill & Levin, 2010; Onghena & Edgington, 2005).

Анализ данных рандомизированных планов фазы AB: методы и подводные камни

Методы рандомизированных планов фазы AB можно в общих чертах разделить на две группы: визуальный анализ и статистический анализ (Heyvaert et al., 2015). Визуальный анализ относится к проверке наблюдаемых данных на предмет изменений уровня, фазового перекрытия, изменчивости, тенденции, непосредственности эффекта и согласованности моделей данных на аналогичных фазах (Horner, Swaminathan, Sugai, & Smolkowski, 2012).Преимущества визуального анализа в том, что он быстрый, интуитивно понятный и требует небольших методологических знаний. Основные недостатки визуального анализа заключаются в том, что небольшие, но систематические лечебные эффекты трудно обнаружить (Kazdin, 2011) и что он связан с низким соглашением между экспертами (например, Bobrovitz & Ottenbacher, 1998; Ximenes, Manolov, Solanas, & Quera, 2009). ). Хотя визуальный анализ по-прежнему широко используется для анализа рандомизированных планов фазы AB (Kazdin, 2011), существует общее мнение, что визуальный анализ следует использовать одновременно с дополнительным статистическим анализом для подтверждения результатов (Harrington & Velicer, 2015; Kratochwill et al., 2010).

Методы статистического анализа рандомизированных планов фазы AB можно разделить на три группы: расчет размера эффекта, статистическое моделирование и статистический вывод. Расчет размера эффекта (ES) включает оценку ES лечения путем расчета формальных показателей ES. Можно выделить предложения, основанные на вычислении стандартизованных мер средней разности (например, Busk & Serlin, 1992; Hedges, Pustejovsky, & Shadish, 2012), предложения, основанные на вычислении перекрытия между фазами (см. Parker, Vannest, & Davis, 2011, для обзора), предложения, основанные на расчете стандартизованных или нестандартных коэффициентов регрессии (например,г., Allison & Gorman, 1993; Соланас, Манолов и Онгена, 2010; Van den Noortgate & Onghena, 2003), а также предложения, основанные на байесовских методах (Rindskopf, Shadish, & Hedges, 2012; Swaminathan, Rogers, & Horner, 2014). Статистическое моделирование относится к построению адекватного описания данных путем подгонки данных к статистической модели. Некоторые предлагаемые методы моделирования включают анализ прерванных временных рядов (Borckardt & Nash, 2014; Gottman & Glass, 1978), обобщенные смешанные модели (Shadish, Zuur, & Sullivan, 2014), многоуровневое моделирование (Van den Noortgate & Onghena, 2003), байесовское моделирование. методы моделирования (Rindskopf, 2014; Swaminathan et al., 2014) и моделирование структурными уравнениями (Shadish, Rindskopf, & Hedges, 2008).

Статистический вывод относится к оценке статистической значимости эффектов лечения посредством проверки гипотез или путем построения доверительных интервалов для оценок параметров (Heyvaert et al., 2015; Michiels, Heyvaert, Meulders, & Onghena, 2017). С одной стороны, процедуры вывода можно разделить на параметрические и непараметрические процедуры, а с другой стороны, они могут быть разделены на частотные и байесовские процедуры.Одна из возможностей для анализа рандомизированных планов фазы AB заключается в использовании параметрических частотных процедур, таких как статистические тесты и доверительные интервалы, основанные на распределениях t и F . Использование этих процедур часто подразумевается в некоторых из ранее упомянутых предложений по анализу данных, таких как основанный на регрессии подход Allison и Gorman (1993) и многоуровневый модельный подход Van den Noortgate и Onghena (2003). Однако было показано, что данные из рандомизированных планов фазы AB часто нарушают определенные предположения о распределении, сделанные с помощью этих параметрических процедур (Shadish & Sullivan, 2011; Solomon, 2014).Таким образом, достоверность этих параметрических процедур не гарантируется, когда они применяются к рандомизированным планам фазы AB. Байесовский вывод может быть параметрическим или непараметрическим, в зависимости от допущений, сделанных для априорного и апостериорного распределений используемой байесовской модели. Де Фрис и Мори (2013) приводят пример параметрической проверки байесовской гипотезы для анализа рандомизированных планов фазы AB.

Примером непараметрической частотной процедуры, которая была предложена для анализа рандомизированных планов фазы AB, является RT (например.г., Bulté & Onghena, 2008; Эджингтон, 1967; Хейваерт и Онгена, 2014; Левин, Феррон и Кратохвилл, 2012; Онгена, 1992; Онгена и Эджингтон, 1994, 2005). RT может использоваться для статистического вывода на основе случайного распределения. В частности, тест не делает конкретных предположений о распределении или предположения о случайной выборке, а скорее получает свою достоверность от рандомизации, которая присутствует в плане. Когда случаи измерения рандомизированы по условиям лечения в соответствии с применяемой схемой рандомизации, может быть вычислено статистическое эталонное распределение для тестовой статистики S .Это эталонное распределение можно использовать для расчета непараметрических значений p или для построения непараметрических доверительных интервалов для S путем инвертирования RT (Michiels et al., 2017). RT также может гибко подходить к выбору тестовой статистики (Ferron & Sentovich, 2002; Onghena, 1992; Onghena & Edgington, 2005). Например, можно использовать показатель ES, основанный на стандартизованных средних различиях, в качестве тестовой статистики в RT (Michiels & Onghena, 2018), а также меры ES, основанные на отсутствии перекрытия данных (Heyvaert & Onghena, 2014; Michiels, Heyvaert, И Онгена, 2018).Эта свобода разработки статистики теста, которая соответствует вопросу исследования, делает RT универсальным статистическим инструментом для различных условий исследования и эффектов лечения (например, с разницей среднего уровня, тенденциями или изменениями в вариабельности; Dugard, 2014).

При использовании статистических методов вывода для рандомизированных планов фазы AB, исследователи отдельных случаев могут столкнуться с различными ловушками в отношении достижения достоверных выводов об эффективности лечения. Первая потенциальная ловушка состоит в том, что отдельные данные часто нарушают предположения о распределении параметрических тестов гипотез (Solomon, 2014).Когда предположения о распределении нарушаются, параметрические тесты могут увеличивать или уменьшать вероятность ошибок типа I по сравнению с номинальным уровнем значимости теста. Использование RT может обеспечить защиту от этой ловушки: вместо того, чтобы ссылаться на предположения о распределении, процедура RT включает вывод эталонного распределения из наблюдаемых данных. Более того, RT точно действителен по построению: можно показать, что вероятность совершения ошибки типа I с использованием RT никогда не превышает уровень значимости α , независимо от количества случаев измерения или распределительных свойств данные (Edgington & Onghena, 2007; Keller, 2012).Вторая ошибка — это наличие последовательных зависимостей в данных (Shadish & Sullivan, 2011; Solomon, 2014). Последовательные зависимости могут привести к неточным оценкам дисперсии в параметрических тестах гипотез, что, в свою очередь, может привести к слишком либеральным или слишком консервативным тестам. Использование RT также может решить эту проблему. Хотя наличие последовательных зависимостей действительно влияет на мощность RT (Ferron & Onghena, 1996; Ferron & Sentovich, 2002; Levin et al., 2014; Levin et al., 2012), ошибка типа I RT всегда будет контролироваться на номинальном уровне, поскольку последовательная зависимость идентична для каждого элемента эталонного распределения (Keller, 2012). Третья ошибка, которая может возникнуть при анализе рандомизированных планов фазы AB, заключается в том, что в этих планах обычно используется небольшое количество случаев измерения (Shadish & Sullivan, 2011). Таким образом, статистическая мощность является проблемой для этих проектов. Четвертая ошибка при анализе данных по отдельным случаям — наличие неожиданной тенденции данных (Solomon, 2014).Один из способов появления неожиданных тенденций в данных — это эффект созревания (например, постепенное снижение оценки боли пациента из-за эффекта десенсибилизации). В следующем разделе этой статьи мы покажем, что RT не изменяет вероятность ошибки типа I выше номинального уровня для данных, содержащих общие линейные тренды, и, таким образом, также смягчает эту ловушку.

Анализ рандомизированных планов фазы AB с помощью рандомизационных тестов: гипотетический пример

В иллюстративных целях мы обсудим этапы построения рандомизированного плана фазы AB и анализа результатов с помощью RT с помощью гипотетического примера.На первом этапе исследователь выбирает количество случаев измерения, которые будут включены в план, и минимальное количество случаев измерения, которые будут включены в каждый отдельный этап. Для этой иллюстрации мы будем использовать гипотетический пример исследователя, планирующего провести рандомизированный план фазы AB с 26 случаями измерения и минимум тремя случаями измерения на каждой фазе. На втором этапе план может быть рандомизирован с использованием рандомизации начальной точки, предложенной Эджингтоном (1975a).Эта процедура приводит к ряду потенциальных отправных точек для лечения на протяжении всего курса SCE. Каждая отдельная начальная точка приводит к уникальному разделению случаев измерения на исходные и лечебные в плане (мы будем называть каждое такое разделение присвоением ). Возможные назначения для этого конкретного эксперимента могут быть получены путем размещения начальной точки в каждом из случаев измерения, соблюдая ограничение, по крайней мере, трех случаев измерения на каждой фазе.Есть 21 возможных назначений, учитывая это ограничение (не все задания перечислены):

  • AAABBBBBBBBBBBBBBBBBBBBBBB
  • AAAABBBBBBBBBBBBBBBBBBBBBB
  • AAAAABBBBBBBBBBBBBBBBBBBBB
  • AAAAAAAAAAAAAAAAAAAAABBBBB
  • AAAAAAAAAAAAAAAAAAAAAABBBB
  • AAAAAAAAAAAAAAAAAAAAAABBB

Предположим, что исследователь случайным образом выбирает назначение с 13-м случаем измерения в качестве начальной точки фазы B для реального эксперимента: AAAAAAAAAAAAABBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBНа третьем этапе исследователь выбирает статистику теста, которая будет использоваться для количественной оценки эффекта лечения. В этом примере мы будем использовать абсолютную разницу между средним значением исходной фазы и средним значением фазы лечения в качестве тестовой статистики. На четвертом этапе проводится фактический эксперимент со случайно выбранной начальной точкой, и данные записываются. Предположим, что записанные данные эксперимента: 0, 2, 2, 3, 1, 3, 3, 2, 2, 2, 2, 2, 6, 7, 5, 8, 5, 6, 5, 7, 4 , 6, 8, 5, 6 и 7. Рисунок 1 графически отображает эти гипотетические данные.На пятом этапе исследователь вычисляет распределение рандомизации, которое состоит из значения статистики теста для каждого из возможных назначений. Распределение рандомизации для данного примера состоит из 21 значения (перечислены не все значения; наблюдаемое значение выделено жирным шрифтом):

AABABB BBABAA
AABBAB BBAABA BABBAA
ABABAB BABABA
ABABBA BABAAB
ABBAAB BAABBA
9036 значение для наблюдаемой тестовой статистики путем определения доли тестовой статистики в распределении рандомизации, которая, по крайней мере, столь же экстремальна, как наблюдаемая тестовая статистика.В этом примере наблюдаемая статистика теста является самым экстремальным значением в распределении рандомизации. Следовательно, значение p равно 1/21 или 0,0476. Это значение p можно интерпретировать как вероятность наблюдения данных (или даже более экстремальных данных) при нулевой гипотезе о том, что результат не связан с уровнями независимой переменной. Обратите внимание, что расчет двусторонних значений p предпочтительнее, если эффекты лечения могут идти в обоих направлениях.В качестве альтернативы, тест рандомизации также можно инвертировать, чтобы получить непараметрический доверительный интервал наблюдаемого эффекта лечения (Michiels et al., 2017). Преимущество вычисления доверительных интервалов для значений p заключается в том, что первое передает ту же информацию, что и второе, с преимуществом предоставления диапазона «правдоподобных значений» для рассматриваемой статистики теста (du Prel, Hommel, Röhrig, & Блеттнер, 2009).

Ошибка типа I теста рандомизации для рандомизированных планов фазы AB при наличии неожиданного линейного тренда

Одним из способов проявления эффекта созревания в SCED является линейный тренд в данных.Такая линейная тенденция может быть результатом эффекта сенсибилизации или десенсибилизации, который происходит у участника, что приводит к неожиданной восходящей или нисходящей тенденции по SCE, которая полностью не связана с экспериментальным изменением дизайна. Наличие такой неожиданной тенденции данных может серьезно снизить эффективность проверки гипотез, в которой нулевая и альтернативная гипотезы формулируются в терминах различий в среднем уровне между фазами до такой степени, что они становятся бесполезными.Удобным свойством рандомизации начальной точки рандомизированного плана фазы AB в сочетании с анализом RT является то, что RT предлагает номинальную защиту от ошибок типа I для данных, содержащих линейные тренды при нулевой гипотезе об отсутствии дифференциального воздействия обработки на наблюдения за фазой A и фазой B. Прежде чем проиллюстрировать это свойство простым выводом, мы продемонстрируем, что, в отличие от RT, двухвыборочный тест t значительно увеличивает вероятность ошибки типа I для данных с линейным трендом.Предположим, что у нас есть рандомизированный план фазы AB с десятью случаями измерения (пять случаев в фазе A и пять в фазе B). Предположим, что нет никакого эффекта вмешательства, и у нас просто есть общий линейный временной тренд («созревание»):

Тест t на этих данных с двусторонней альтернативной гипотезой приводит к значению t , равному 5 для восьми градусов. свободы и значение p , равное 0,0011, что указывает на статистически значимую разницу между средними значениями на любом общепринятом уровне значимости.Напротив, RT на этих данных дает значение p , равное 1, что совершенно противоположно статистически значимому эффекту лечения. Значение 1 p можно объяснить, посмотрев на распределение рандомизации для этого конкретного примера (при условии наличия минимум трех случаев измерения на случай):

AAABBBBBBBBBBBBBBBBBBBBBBBB 3,23
AAAABBBBBB9 . ... .
AAAAAAAAAAAABBBBBBBBBBBBBB 4,07
. . .. . .
AAAAAAAAAAAAAAAAAAAAAABBBB 2,73
AAAAAAAAAAAAAAAAAAAAAAAB FigBB 2,04
AAABBBBBBB 5
AAAABBBBBB 5 5
AAAAABBBBB 5
AAAAAABBBB 5
AAAAAAABBB 5

, ведущее значение для всех значений p, равное 90. Случайные статистические значения39.Результат для RT в этом гипотетическом примере обнадеживает, и можно показать, что RT с разницей между средними значениями в качестве статистики теста гарантирует контроль частоты ошибок типа I при наличии линейных тенденций, в то время как коэффициент отклонения t test резко возрастает с увеличением количества случаев измерения.

Номинальная защита коэффициента ошибок типа I RT в рандомизированной схеме фазы AB для данных, содержащих линейный тренд, сохраняется в общем случае.Если нулевая гипотеза верна, данные из рандомизированного плана фазы AB с линейным трендом можно записать как

$$ {Y} _ {\ mathrm {t}} = {\ beta} _0 + {\ beta} _1 { T} _t + {\ varepsilon} _ {\ mathrm {t}} \ kern0.5em \ mathrm {with} \ kern0.5em t = 1,2, \ dots, n, $$

(1)

, где Y t — оценка зависимой переменной в момент времени t , β 0 — точка пересечения, β 1 — наклон линейного тренда, ε t — остаточная ошибка, T — временная переменная, а t — временной индекс.Предполагая, что ошибки имеют нулевое среднее значение, ожидаемое значение для этих данных будет

$$ {\ widehat {Y}} _ t = {\ beta} _0 + {\ beta} _1 {T} _t \ kern0.5em \ mathrm { с} \ kern0.5em t = 1,2, \ dots, n. $

(2)

В рандомизированном дизайне фазы AB эти оценки делятся между фазой A (\ ({\ widehat {Y}} _ {\ mathrm {At}} \)) и фазой B (\ ({\ widehat {Y }} _ {\ mathrm {Bt}} \)):

$$ {\ widehat {Y}} _ {\ mathrm {A} \ mathrm {t}} = {\ beta} _0 + {\ beta} _1 { Т} _ {\ mathrm {t}} \ kern0.5em \ mathrm {with} \ kern0.5em t = 1,2, \ dots, {n} _ {\ mathrm {A}}, $$

(3)

$$ {\ widehat {Y}} _ {\ mathrm {B} \ mathrm {t}} = {\ beta} _0 + {\ beta} _1 {T} _ {\ mathrm {t}} \ kern0.5em \ mathrm {with} \ kern0.5em t = {n} _ {\ mathrm {A}} + 1, {n} _ {\ mathrm {A}} + 2, \ dots, {n} _ {\ mathrm { A}} + {n} _ {\ mathrm {B}}, $$

(4)

и n A + n B = n . Среднее значение ожидаемых оценок фазы A (\ ({\ widehat {\ overline {Y}}} _ {\ mathrm {A}} \)) и среднее значение ожидаемых оценок фазы B (\ ({\ widehat {\ overline {Y}}} _ {\ mathrm {B}} \)) равны

$$ {\ widehat {\ overline {Y}}} _ {\ mathrm {A}} = {\ beta} _0 + { \ beta} _1 {\ overline {T}} _ {\ mathrm {A}} = {\ beta} _0 + {\ beta} _1 \ left (\ frac {1+ {n} _ {\ mathrm {A}}} {2} \ right), $$

(5)

$$ {\ widehat {\ overline {Y}}} _ {\ mathrm {B}} = {\ beta} _0 + {\ beta} _1 {\ overline {T}} _ B = {\ beta} _0 + {\ бета} _1 \ left (\ frac {\ left ({n} _ {\ mathrm {A}} + 1 \ right) + \ left ({n} _ {\ mathrm {A}} + {n} _ {\ mathrm {B}} \ right)} {2} \ right).$

(6)

Следовательно, разница между \ ({\ widehat {\ overline {Y}}} _ {\ mathrm {B}} \) и \ ({\ widehat {\ overline {Y}}} _ {\ mathrm {A }} \) равно

$$ {\ widehat {\ overline {Y}}} _ {\ mathrm {B}} — {\ widehat {\ overline {Y}}} _ {\ mathrm {A}} = { \ beta} _1 \ left [\ frac {n _ {\ mathrm {A}} + 1+ {n} _ {\ mathrm {A}} + {n} _ {\ mathrm {B}} — 1- {n} _ {\ mathrm {A}}} {2} \ right] = {\ beta} _1 \ left (\ frac {n_A + {n} _B} {2} \ right), $$

(7)

, который упрощается до

$$ {\ widehat {\ overline {Y}}} _ {\ mathrm {B}} — {\ widehat {\ overline {Y}}} _ {\ mathrm {A}} = { \ beta} _1 \ left (\ frac {n} {2} \ right).$

(8)

Этот вывод показывает, что при нулевой гипотезе \ ({\ widehat {\ overline {Y}}} _ {\ mathrm {B}} — {\ widehat {\ overline {Y}}} _ {\ mathrm { Предполагается, что A}} \) будет постоянной для каждого назначения рандомизированного плана фазы AB. Ожидаемая разница между средними значениями: \ ({\ widehat {\ overline {Y}}} _ {\ mathrm {B}} — {\ widehat {\ overline {Y}}} _ {\ mathrm {A}} \), является функцией только наклона линейного тренда, β 1 , и общего количества случаев измерения, n .Это означает, что ожидаемое значение тестовой статистики для каждой случайной начальной точки идентично, если нулевая гипотеза верна, именно то, что необходимо для управления частотой ошибок типа I. Напротив, коэффициент отклонения теста t будет увеличиваться с увеличением β 1 и увеличением n , потому что разница между средними составляет числитель статистики теста t , и тест будет только относиться к к распределению Стьюдента t с n — 2 степени свободы.Таким образом, тест t обнаружит разницу между средними значениями, которая является просто результатом общего линейного тренда.

Результат этого вывода может быть дополнительно прояснен путем сравнения нулевых гипотез, которые оцениваются как в тесте RT, так и в тесте t . Нулевая гипотеза теста t утверждает, что нет никакой разницы в средних между наблюдениями фазы A и наблюдениями фазы B, тогда как нулевая гипотеза RT утверждает, что нет никакого дифференциального эффекта уровней независимой переменной ( я.е., наблюдения A и B) от зависимой переменной. Набор данных с идеальным линейным трендом, такой как показанный выше, дает среднюю разность уровней между наблюдениями фазы A и наблюдениями фазы B, но не имеет дифференциального эффекта между наблюдениями фазы A и наблюдениями фазы B (т. Е. Эффект тренда идентична для наблюдений как фазы A, так и фазы B). По этой причине нулевая гипотеза теста t отклоняется, а нулевая гипотеза RT — нет.Следовательно, мы можем сделать вывод, что ЛТ лучше подходит для обнаружения неустановленных лечебных эффектов, чем тест t , поскольку его нулевая гипотеза не определяет характер лечебного эффекта. Обратите внимание, что тест t , в отличие от RT, предполагает нормальное распределение, однородность дисперсий и независимые ошибки, допущения, которые часто неправдоподобны для данных SCED. Также стоит отметить, что в отношении предотвращения ошибок типа I RT также имеет заметное преимущество перед визуальным анализом, поскольку последний метод не предлагает способа предотвратить такие ошибки при работе с неожиданными эффектами лечения.Следовательно, мы утверждаем, что статистический анализ с использованием RT является важным методом для получения достоверных выводов из рандомизированных планов фазы AB.

Влияние неожиданных линейных тенденций на мощность теста рандомизации в рандомизированных планах фазы AB: исследование с помощью моделирования

В предыдущем разделе мы показали валидность рандомизированного плана фазы AB и RT по отношению к типу I. ошибка для данных, содержащих неожиданные линейные тренды. Другим критерием применимости RT для конкретных типов наборов данных, помимо контролируемой частоты ошибок типа I, является адекватная мощность.В этом разделе мы сосредоточимся на силе RT в рандомизированном плане фазы AB, когда данные содержат неожиданные линейные тенденции. Предыдущие исследования еще не изучали влияние неожиданных трендов линейных данных на мощность RT в рандомизированных планах фазы AB. Однако Соломон (2014) исследовал наличие линейных тенденций в большой выборке опубликованных исследований по отдельным случаям и обнаружил, что данные по отдельным случаям, которые он исследовал, характеризовались умеренными уровнями линейного тренда. Таким образом, важно исследовать последствия неожиданных тенденций данных для мощности RT в рандомизированных планах фазы AB.

При оценке влияния линейного тренда на мощность RT мы должны различать ситуацию, в которой ожидается тренд данных, и ситуацию, в которой тренд данных не ожидается. Эджингтон (1975b) предложил особый тип RT для первой ситуации. Более конкретно, предлагаемая RT использует статистику теста, которая учитывает прогнозируемую тенденцию, чтобы увеличить ее статистическую мощность. Используя эмпирические данные из полностью рандомизированных планов, Эджингтон (1975b) продемонстрировал, что такой RT может быть весьма эффективным, если прогнозируемая тенденция является точной.Точно так же исследование Левина, Феррона и Гафурова (2017) показало, что мощность ЛТ может быть увеличена для эффектов лечения, которые имеют замедленный и / или постепенный характер, с помощью скорректированной статистики тестов, которые учитывают эти типы эффектов. Конечно, во многих реалистичных исследовательских ситуациях тенденции данных либо неожиданны, либо ожидаемы, но не могут быть точно предсказаны. Поэтому мы провели исследование методом Монте-Карло, чтобы изучить влияние неожиданных тенденций линейных данных на мощность RT, когда он используется для оценки эффектов лечения в рандомизированных схемах фазы AB.Вторичной целью было предоставить рекомендации по количеству случаев измерения, которые следует включить в рандомизированный план фазы AB, чтобы достичь достаточной мощности для различных типов шаблонов данных, содержащих тенденции и различные размеры эффекта лечения. Следуя рекомендациям Коэна (1988), мы определили «достаточную мощность» как степень 80% или более.

Безопасность | Стеклянная дверь

Мы получаем подозрительную активность от вас или кого-то, кто пользуется вашей интернет-сетью.Подождите, пока мы подтвердим, что вы настоящий человек. Ваш контент появится в ближайшее время. Если вы продолжаете видеть это сообщение, напишите нам чтобы сообщить нам, что у вас возникли проблемы.

Nous aider à garder Glassdoor sécurisée

Nous avons reçu des activités suspectes venant de quelqu’un utilisant votre réseau internet. Подвеска Veuillez Patient que nous vérifions que vous êtes une vraie personne. Вотре содержание apparaîtra bientôt. Si vous continuez à voir ce message, veuillez envoyer un электронная почта à pour nous informer du désagrément.

Unterstützen Sie uns beim Schutz von Glassdoor

Wir haben einige verdächtige Aktivitäten von Ihnen oder von jemandem, der in ihrem Интернет-Netzwerk angemeldet ist, festgestellt. Bitte warten Sie, während wir überprüfen, ob Sie ein Mensch und kein Bot sind. Ihr Inhalt wird в Kürze angezeigt. Wenn Sie weiterhin diese Meldung erhalten, informieren Sie uns darüber bitte по электронной почте: .

We hebben verdachte activiteiten waargenomen op Glassdoor van iemand of iemand die uw internet netwerk deelt.Een momentje geduld totdat, мы выяснили, что u daadwerkelijk een persoon bent. Uw bijdrage zal spoedig te zien zijn. Als u deze melding blijft zien, электронная почта: om ons te laten weten dat uw проблема zich nog steeds voordoet.

Hemos estado detectando actividad sospechosa tuya o de alguien con quien compare tu red de Internet. Эспера mientras verificamos que eres una persona real. Tu contenido se mostrará en breve. Si Continúas recibiendo este mensaje, envía un correo electrónico a para informarnos de que tienes problemas.

Hemos estado percibiendo actividad sospechosa de ti o de alguien con quien compare tu red de Internet. Эспера mientras verificamos que eres una persona real. Tu contenido se mostrará en breve. Si Continúas recibiendo este mensaje, envía un correo electrónico a para hacernos saber que estás teniendo problemas.

Temos Recebido algumas atividades suspeitas de voiceê ou de alguém que esteja usando a mesma rede. Aguarde enquanto confirmamos que Você é Uma Pessoa de Verdade.Сеу контексто апаресера эм бреве. Caso продолжить Recebendo esta mensagem, envie um email para пункт нет informar sobre o проблема.

Abbiamo notato alcune attività sospette da parte tua o di una persona che condivide la tua rete Internet. Attendi mentre verifichiamo Che sei una persona reale. Il tuo contenuto verrà visualizzato a breve. Secontini visualizzare questo messaggio, invia un’e-mail all’indirizzo per informarci del проблема.

Пожалуйста, включите куки и перезагрузите страницу.

Это автоматический процесс. Ваш браузер в ближайшее время перенаправит вас на запрошенный контент.

Подождите до 5 секунд…

Перенаправление…

Заводское обозначение: CF-102 / 68ffbae2bbda5024.

Мощность рандомизационного теста в одном случае множественный базовый дизайн AB

Образец цитирования: Bouwmeester S, Jongerling J (2020) Мощность рандомизационного теста в единственном случае множественный базовый дизайн AB.PLoS ONE 15 (2): e0228355. https://doi.org/10.1371/journal.pone.0228355

Редактор: Мауро Гаспарини, Туринский политехнический университет, ИТАЛИЯ

Поступила: 3 сентября 2019 г .; Принята к печати: 13 января 2020 г .; Опубликовано: 6 февраля 2020 г.

Авторские права: © 2020 Bouwmeester, Jongerling. Это статья в открытом доступе, распространяемая в соответствии с условиями лицензии Creative Commons Attribution License, которая разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии указания автора и источника.

Доступность данных: Все соответствующие данные находятся в документе и его файлах с вспомогательной информацией.

Финансирование: Автор (ы) не получил специального финансирования для этой работы.

Конкурирующие интересы: Авторы заявили об отсутствии конкурирующих интересов.

Введение

Одноразовый дизайн имеет долгую историю в психологии, так как он уже использовался известными основателями, такими как [1–4]. Однако он не ограничивается областью психологии и может использоваться для информирования и развития теории, оценки эффективности вмешательств и изучения поведения организмов [5].Хотя типы исследовательских вопросов, связанных с планами единичных случаев, часто отличаются от планов множественных случаев, планы единичных случаев могут быть жизнеспособной альтернативой обычным рандомизированным планам испытаний, когда количество участников невелико, допущения о нормальности и однородности дисперсии не являются обоснованными или выборка не случайна [6]. Они используются в клинических условиях для оценки воздействия определенного вмешательства на небольшую группу пациентов [7–9], но также в образовательном контексте для проверки того, может ли манипуляция помочь студентам [10–12].

Хотя дизайн одного случая может сильно различаться по своим конкретным конструктивным свойствам, что типично для всех планов одного случая, так это то, что для каждого случая переменная результата многократно измеряется в каждом из двух или более условий или фаз лечения (например, на исходной фазе). и фаза вмешательства). Эффект вмешательства оценивается путем сравнения модели наблюдаемых результатов при различных условиях лечения, при этом каждый случай служит отдельным контролем [13].

В этом исследовании мы сосредотачиваемся на силе множественного базового уровня для разных субъектов дизайна AB, сокращенно MBD для разных субъектов [14].MBD по всем предметам является наиболее распространенной формой дизайна отдельных случаев [15]. Такой дизайн по предметам основан на средних показателях группы. [6] показали, что рандомизационный тест также может быть использован для дизайна отдельных случаев с одним субъектом. Тем не менее, мощность дизайна одного случая с одним субъектом близка к нулю, если эффект вмешательства не был огромным, а количество измерений велико (например, d> 1,5 по Коэну и более 40 измерений).

В дизайне MBD для разных субъектов два или более субъектов проводят несколько измерений какой-либо переменной результата.Этими субъектами обычно являются люди, и поэтому мы будем использовать слово «участники» на протяжении всей рукописи, но MBD также применима к условиям, поведению или группам. В плане AB все базовые измерения A предшествуют измерениям вмешательства B. Этот план AB отличается от плана с чередованием, в котором чередуются базовые этапы и фазы лечения. Хотя дизайн AB может иметь меньшую внутреннюю валидность, чем дизайн чередования, который может лучше устранить предубеждения в отношении истории и созревания [14], дизайн AB имеет равную валидность в ситуациях, когда демонстрируется экспериментальный контроль, и часто это единственно возможный дизайн с практической или этической точки зрения. причины.Например, в клиническом контексте, где оценивается действие какого-либо лекарственного средства, в большинстве случаев нельзя чередовать фазы, где лекарство отсутствует и где оно присутствует. Лучше всего в этой ситуации подходит конструкция AB.

В дизайне AB с несколькими базовыми линиями базовая фаза в идеале начинается в одно и то же время для каждого участника, в то время как фаза вмешательства в идеале начинается в разное время для каждого участника. Это связано с тем, что начальные измерения начального уровня начинаются в одно и то же время, но изменение времени начала вмешательства для участников помогает защититься от некоторых угроз внутренней валидности из-за созревания или общей истории.Сходные для всех участников схемы фазы вмешательства интерпретируются как свидетельство того, что результат отвечает вмешательству [16]. Однако этот идеальный дизайн часто не применяется на практике, что можно рассматривать как методологический недостаток [17].

Традиционно эффект вмешательства в схемах единичных случаев оценивается с помощью визуального осмотра схемы наблюдений. Анализ визуального контроля предлагает широкий спектр возможностей для исследования закономерностей отдельных временных рядов, и было разработано несколько мер для количественной оценки этого визуального контроля (например,грамм. [18–21]). Можно сравнить средние или медианные значения наблюдений на исходной фазе и фазе вмешательства или сравнить диапазон или стандартное отклонение на двух фазах. В качестве альтернативы исследователи могут посмотреть на линии тренда или проверить процент неперекрывающихся наблюдений (см. Https://architecta.shinyapps.io/SingleCaseDesigns/, где можно найти инструмент для анализа визуального контроля). Несмотря на очевидные преимущества и интуитивную привлекательность визуального контроля в дизайне отдельных случаев, его критиковали за высокий уровень ошибок и субъективность [22–23].[24] сравнили визуальный осмотр со статистическим анализом и пришли к выводу, что выводы визуального анализа и статистического анализа имеют низкий уровень согласия (см. Также [25–27]). Хотя результаты этих исследований информативны, поскольку они подтверждают, что статистические выводы не могут быть заменены выводами, сформированными исключительно на основе визуального осмотра, мы утверждаем, что сравнение двух видов анализов, которые по своей сути различны, вызывает сомнения. Как уже указывает термин, визуальный осмотр предназначен для проверки закономерностей временных рядов и эффекта вмешательства для одного или небольшого числа участников.Статистический вывод, напротив, направлен на обобщение тестовой статистики на некоторый тип населения. Некоторые исследователи [28–29] даже утверждают, что, поскольку анализ визуального осмотра может просто обнаружить основные эффекты, этот анализ приводит к меньшему количеству ошибок типа I и увеличению ошибок типа II. Мы согласны с [30], который рекомендовал по возможности дополнять визуальный анализ статистическим анализом данных.

Когда целью исследователя является статистическая оценка среднего эффекта вмешательства в одном случае с множественным базовым дизайном, он не может использовать параметрические тесты, такие как тесты F и t , потому что данные из одного случая конструкции нарушают предположения, от которых зависят параметрические тесты.То есть нормальность и однородность отклонений часто нельзя гарантировать, потому что количество участников невелико в планах для одного случая. Более того, предположение о независимых наблюдениях проблематично, потому что данные по планам отдельных случаев являются зависимыми, что может привести к автокоррелированным остаткам, которые могут серьезно повлиять на результаты параметрических тестов (см., Например, [31–34, 23]). [14] объясняют, что анализ временных рядов может использоваться для обработки автокоррелированных остатков, но этот метод анализа требует гораздо большего количества измерений, чем обычно доступно в одном случае MBD для обнаружения модели автокорреляций и идентификации модели [35–37].

Исследователь мог бы рассмотреть непараметрический тест рандомизации для анализа одного случая множественных базовых планов, так как этот тест не полагается на какие-либо предположения о распределении (см. Файл S1, для некоторой истории теста рандомизации).

В дизайне с множеством базовых показателей по предметам метод рандомизации может быть основан на случайном распределении участников по базовым показателям. Этот метод был представлен в [38]. Это также может быть основано на случайном назначении начала вмешательства для каждого из участников [39].[40] разработали комбинацию этих двух методов, рандомизируя распределение участников по исходным уровням и начало вмешательства. [41] сравнили этот тест рандомизации с тестами [38] и [39] и пришли к выводу, что мощность аналогична. Рандомизационный тест Келера и Левина позволяет разработать более практичный дизайн, поскольку исследователь определил ступенчатые моменты начала вмешательства. Поэтому в нашем исследовании мы сосредоточились на этой процедуре рандомизации. Мы вкратце объясним причины рандомизации Келера и Левина здесь, а для полного примера мы отсылаем читателя к файлу S2.Пусть N будет числом исследуемых участников, тогда процедура рандомизации Келера и Левина требует определения N отдельных диапазонов начальных точек для вмешательства. Если имеется N = 3 участника, каждый из которых измеряется по 15 раз, например, эти три диапазона могут быть [ T5-T6 ], [ T7-T8 ] и [ T9-T10 ] соответственно, с T , представляющий моменты времени (с T5 , представляющий пятый момент времени).Мы не будем вдаваться в подробности того, как эти диапазоны должны определяться на практике, поскольку это выходит за рамки данной статьи, но мы хотим упомянуть, что на практике определение этих диапазонов часто является трудным шагом, потому что это зависит от минимального количества базовые измерения и измерения вмешательства, необходимые для получения стабильной оценки исходного состояния и вмешательства, при этом минимальное количество необходимых измерений зависит от конкретного контекста. Когда определены отдельные начальные диапазоны N , каждый из которых состоит из k возможных стартовых моментов, всех возможных комбинаций участников i ( i = 1 , , N ) и начальной точки k определены, что приводит к перестановкам.Обратите внимание, что общее количество перестановок меньше, когда есть перекрытие в диапазоне возможных начальных моментов вмешательства для разных участников [14]. Одна из этих перестановок, то есть одна из комбинаций участников и начальный момент вмешательства, используется в фактическом сборе данных, а средние исходные баллы и баллы вмешательства рассчитываются на основе конкретных использованных начальных моментов. Затем на основе наблюдаемых данных рассчитываются исходные баллы и баллы вмешательства с использованием каждой из перестановок индивидуальных и начальных моментов.Средние разности, усредненные по всем участникам всех перестановок, вместе образуют распределение теста рандомизации. Обратите внимание, что это распределение не основывается на каких-либо предположениях о распределении и вряд ли будет симметричным. Наконец, значение p вычисляется путем деления числа перестановок, средняя разность которых равна или более экстремальна, чем наблюдаемая усредненная разница средних значений, на общее количество перестановок. Мощность теста рандомизации определяется как вероятность того, что нулевая гипотеза будет правильно отвергнута.

Важно понять две вещи. Во-первых, поскольку форма распределения неизвестна, тест рандомизации является односторонним, а не двусторонним. Во-вторых, нулевая гипотеза этого рандомизационного теста — , а не , что средний исходный уровень равен среднему баллу вмешательства. Поскольку существует минимальное количество исходных и минимальное количество наблюдений за вмешательством, которые не являются частью рандомизации, средняя разница между исходными баллами и баллами вмешательства может не быть нулевой.Вместо этого нулевая гипотеза состоит в том, что средняя разница между исходными наблюдениями и наблюдениями за вмешательствами одинакова для всех возможных перестановок. Из этого следует, что частота ошибок типа I — это вероятность того, что кто-то решит, что средняя разница между исходными данными и наблюдениями за вмешательства равна , а не для всех возможных перестановок, когда фактически нет никакого эффекта для перестановок. Ошибка типа II — это вероятность того, что кто-то решит, что средняя разница между исходными данными и наблюдениями за вмешательствами одинакова для всех возможных перестановок, когда есть эффект перестановок.

Хотя тест рандомизации не основывается на предположениях о распределении, существует необходимое и достаточное условие при использовании распределения рандомизации для получения достоверной статистической значимости [42–43]. Это предположение об обмене, которое гласит, что наблюдения можно обмениваться с другими наблюдениями без потери смысла для группировки / последовательности. В одном случае несколько измерений в пределах относительно короткого интервала выполняются у одного и того же человека, и эти наблюдения почти всегда будут автокоррелированы, по крайней мере, до некоторой степени [44].Эта автокорреляция на уровне измерения будет, хотя и в меньшей степени, отражаться в статистике теста рандомизации, которая нарушает условие взаимозаменяемости.

Некоторые исследователи утверждают, что автокоррелированные данные не влияют на статистическую достоверность рандомизационных тестов, если количество данных на фазу достаточно велико [14, 45, 44]. [38] и [46] предположили, соответственно, что автокорреляция одинаково влияет на все переставляемые данные в распределении рандомизации и что тесты рандомизации преодолевают проблемы автокорреляции.Однако [47] (см. Также [48–49, 43, 50–51]) критически относятся к валидности теста рандомизации, когда наблюдения автокоррелированы. [41], насколько нам известно, являются единственными исследователями, которые оценили эффект автокорреляции в AB между субъектами MBD. Они пришли к выводу, что важно принимать во внимание уровень автокорреляции при исследовании возможностей MBD.

Они показали, что критерий рандомизации Келера-Левина может контролировать уровень ошибок типа I даже при значительной автокорреляции, однако мощность критерия рандомизации отрицательно связана с автокорреляцией.

Помимо автокорреляции, существует несколько других факторов, которые могут повлиять на мощность критерия рандомизации Келера-Левина в одном случае AB с множественным базовым дизайном. Исследователь может контролировать некоторые из этих факторов, такие как количество участников и количество начальных моментов вмешательства, а также количество измерений на исходной фазе и фазе вмешательства. Другие, такие как размер эффекта, наличие корреляции между средним исходным значением и средним значением оценок вмешательства и сходство результатов в двух фазах, будут в основном определяться и ограничиваться контекстом исследования. , и исследователь в большинстве случаев не может изменить эти факторы для увеличения мощности.Целью данной статьи является исследование влияния этих факторов на мощность в ряде практически реалистичных сценариев. Мы думаем, что исследователи, использующие рандомизационные тесты для оценки своего MBD, могут действительно быть заинтересованы в результатах этого исследования, потому что практически нет литературы по этой теме и нет программного обеспечения, которое можно было бы использовать для априорной оценки эффективности конкретного дизайна. .

Прежде чем мы опишем детали исследования моделирования, которое было выполнено для оценки влияния факторов, мы сначала объясним факторы более подробно.

Во-первых, как объяснено выше, ожидается, что уровень автокорреляции между наблюдениями внутри участников будет влиять на мощность. Как и в [41], мы учли диапазон автокорреляций от 0 до 0,5. Чем выше автокорреляция, тем ниже ожидаемая мощность. У нас не было причин ожидать, что этот эффект будет взаимодействовать с другими факторами дизайна (см. Файл S4).

Во-вторых, для MBD по всем предметам требуется как минимум два участника. Чем больше количество участников, тем больше количество перестановок.Требуется минимальное количество участников, чтобы иметь возможность отклонить нулевую гипотезу, поскольку значение p вычисляется путем деления на общее количество перестановок. [41] показали, однако, что общее количество перестановок не может быть связано с мощностью дизайна.

В-третьих, чем больше количество возможных начальных моментов вмешательства для каждого участника, тем больше количество перестановок. Фактический диапазон возможных начальных моментов может быть ограничен количеством участников, минимальным количеством наблюдений в каждой фазе и общим количеством общего количества измерений.Во многих случаях требуются некоторые базовые наблюдения, чтобы получить стабильную оценку исходной оценки индивидуума. В этом случае диапазон возможных стартовых моментов вмешательства может быть небольшим. Обратите внимание, что, как следствие, количество перестановок для теста рандомизации может быть слишком маленьким, чтобы достичь статистической значимости.

В-четвертых, в проекте с несколькими базовыми линиями количество измерений может различаться для участников. Как правило, чем больше измерений, тем надежнее статистика теста, поскольку она основана на большем количестве наблюдений.От фактического контекста, в котором измеряется результат, зависит, сколько наблюдений требуется для получения стабильных оценок исходного уровня и оценок вмешательства.

В-пятых, размер эффекта внутри участника будет иметь влияние на силу. Обсуждались несколько видов размеров эффекта для дизайна одного случая [8, 52]. В нашем исследовании мы определили размер эффекта внутри участника как среднюю разницу между исходным уровнем участника и баллами вмешательства, деленными на объединенное стандартное отклонение баллов на исходном уровне и на этапах вмешательства.[41] обнаружили, что Cohen’s d не менее 1,5 требуется, чтобы иметь достаточную мощность (мощность = 0,80). В своем исследовании они исследовали влияние размеров эффекта 0,5, 1, 1,5 и 2 в плане с четырьмя участниками и двумя начальными моментами вмешательства. Степень d ‘s 0,5 и 1 была очень низкой для всех сравниваемых тестов рандомизации.

В-шестых, для получения стабильных средних оценок как для исходной фазы, так и для фазы вмешательства, кажется предпочтительным иметь как можно больше измерений на обеих фазах.Однако это не может быть предпочтительным с практической точки зрения. Практически во всех клинических контекстах, где вмешательство является лечением, а исходные наблюдения собираются, когда кто-то находится в очереди на лечение, нужно начать лечение как можно скорее. Более того, большее количество наблюдений во время лечения часто будет предпочтительнее равного количества наблюдений на исходном уровне и во время вмешательства. Вопрос в том, оказывает ли меньшее количество измерений в исходной фазе, чем в фазе вмешательства, отрицательное влияние на мощность по сравнению с четным количеством наблюдений в обеих фазах.

В-седьмых, на мощность может влиять перекрытие диапазона возможных начальных моментов вмешательства для разных участников. Хотя предпочтительны уникальные возможные начальные моменты, фактический контекст может не допускать неперекрывающихся диапазонов. Это может иметь место, когда количество измерений невелико или когда требуется большое количество исходных измерений для получения стабильной исходной оценки. Перекрытие возможных стартовых моментов в сочетании с небольшим количеством участников приводит к меньшему количеству перестановок, что может отрицательно сказаться на мощности.

В-восьмых, в клиническом контексте эффект вмешательства может часто коррелировать со средними исходными оценками по предметам. Обратите внимание, что этот эффект может существовать отдельно или в дополнение к автокорреляции наблюдений внутри участника. Мы исследовали, оказывают ли коррелированные исходные данные и средства вмешательства у разных субъектов отрицательное влияние на мощность.

В-девятых, соотношение вариации оценок на исходном уровне и фазе вмешательства может иметь влияние на мощность.В некоторых случаях можно ожидать однородного разброса оценок на исходном уровне и на этапе вмешательства. Однако во многих контекстах вмешательство приведет к тому, что наблюдения станут более похожими или просто более вариабельными. Хотя настроение депрессивных людей может быть стабильно низким в списке ожидания, оно может стать более изменчивым из-за эффекта психотерапевтического лечения. Напротив, люди, страдающие биполярным расстройством, могут стать менее переменчивыми в настроении, как только они получат правильное лекарство.Мы исследовали, как влияет эта неоднородность различий между оценками на исходном уровне и на этапе вмешательства.

Наконец, эффект вмешательства может проявиться внезапно, сразу после начала лечения или проявиться постепенно во время вмешательства. Размер эффекта у постепенно возникающего эффекта, очевидно, меньше, чем у внезапно возникающего (см. [53] для обзора размеров эффекта с постепенно возникающими эффектами). В нашем исследовании мы оценили влияние постепенно возникающего эффекта на мощность теста рандомизации.

Различные факторы могут не только иметь основное влияние на мощность, но также могут взаимодействовать друг с другом. Поэтому в нашем имитационном исследовании мы использовали перекрестный план всех уровней факторов, за исключением автокорреляции факторов и постепенно возникающего эффекта, взаимодействия которого мы не ожидали. Поскольку эффекты более высокого порядка могут быть менее информативными в целом, мы обсуждаем только результаты основного и двустороннего взаимодействий. Хотя общие результаты по влиянию основного и двустороннего взаимодействия факторов на мощность, представленные ниже, вносят полезный вклад в относительно немногочисленную литературу о рандомизационных тестах в MBD, их полезность может быть ограничена для исследователей, которые хотят знать, являются ли их специфические специфическими. МБД с несколькими взаимодействующими факторами обладает достаточной мощностью.Чтобы исследователи могли изучить возможности своего конкретного дизайна, мы разработали онлайн-инструмент (https://architecta.shinyapps.io/power_MBD/). Этот инструмент можно использовать для оценки эффектов взаимодействия более высокого порядка, дает оценку мощности для конкретной конструкции и показывает, как изменения в свойствах конструкции влияют на мощность. Более того, мы предлагаем исследователям возможность провести собственное имитационное исследование, в котором они могут моделировать мощность своего собственного MBD, и которое не ограничивается уровнями факторов, которые мы включили в наше имитационное исследование.

Обсуждение

В этом исследовании мы предоставили информацию о влиянии нескольких факторов на мощность рандомизационного теста в одном случае, множественные исходные уровни по дизайну субъектов. Результаты показали, что автокорреляция наблюдений отрицательно сказывается на мощности. Этот эффект не влиял на другие свойства дизайна. Однако влияние автокорреляции наблюдений на мощность оказалось функцией мощности и стандартного отклонения мощности, когда автокорреляция была равна 0.

Количество участников имело большое влияние на силу, а также на размер эффекта внутри участника. При небольших размерах эффекта внутри участника (Коэна d = 0,3) полезность рандомизационного теста ограничена, поскольку он практически не имеет силы даже с двенадцатью участниками (степень <0,5). При среднем эффекте, Коэне d = 0,6, достаточная мощность (0,8) достигается у десяти участников. Имея большой эффект, Коэна d = 1, шесть участников уже приводят к ожидаемой мощности.8. Эти результаты могут показаться разочаровывающими на первый взгляд, учитывая, что средние и большие размеры эффекта встречаются реже, чем обычные в экспериментальных планах в социальных науках (однако, см. [56] для эмпирической оценки рекомендаций Коэна по величине эффекта в контексте индивидуальные различия.). Тем не менее, нельзя сравнивать контекст, в котором имеют место эти большие рандомизированные исследования n , с контекстами множественного базового дизайна для одного случая. Дизайн единичного случая часто используется в образовательных или клинических контекстах, в которых нужно оценить вмешательство или терапию, эффект которых уже был установлен или доказан в образовательной или клинической популяции, из которой происходят участники.Целью отдельных тематических исследований часто является не оценка того, можно ли распространить результаты вмешательства на популяцию, а скорее оценка того, является ли вмешательство эффективным в определенной подгруппе. В центре внимания отдельных тематических исследований больше внутренней, чем внешней валидности [57]. В таких ситуациях гораздо более вероятны средние или большие эффекты.

Количество возможных начальных моментов вмешательства также сильно повлияло на мощность. Использование трех вместо двух возможных стартовых моментов приводит к значительному увеличению мощности, и это увеличение даже больше с трех до четырех возможных стартовых моментов.Этот эффект практически не взаимодействует с другими принимаемыми во внимание факторами. Больше возможных стартовых моментов приводит к большему количеству комбинаций в распределениях перестановок. Следуя [41], мы не ожидали, что это большее распределение перестановок окажет положительное влияние на мощность заранее. Объяснение можно найти в том, как мы выбрали стартовые моменты в нашем дизайне. Мы определили возможные стартовые моменты, что привело к более широкому диапазону возможных стартовых моментов по сравнению с участниками, когда на каждого участника было больше возможных стартовых моментов.Возьмем, к примеру, ситуацию с тремя участниками, двумя возможными стартовыми моментами и 60 измерениями. Это могло привести к следующему набору стартовых моментов [27, 28]; [29, 30]; [31, 32]. Первым возможным начальным моментом вмешательства является измерение 27 -го , а последним возможным начальным моментом является измерение 32 и . В той же ситуации, но теперь с тремя возможными стартовыми моментами, стартовые моменты могут быть [26, 27, 28]; [29, 30, 31]; [32, 33, 34], что ведет к более широкому диапазону от 26 до 34.Как видите, при выборе большего количества возможных стартовых моментов, более широкого диапазона, возникает противоречивый эффект. Вероятно, дело не в количестве возможных стартовых моментов для каждого участника, а в более широком диапазоне возможных стартовых моментов по отношению к участникам, что приводит к более высокой силе. Конечно, можно решить эту сбивающую с толку проблему, зафиксировав диапазон и выбрав не последовательные возможные стартовые моменты. Однако мы думаем, что непоследовательные возможные стартовые моменты являются исключительными, а на практике обычно предпочтительны последовательные возможные стартовые моменты.

Те же рассуждения можно использовать для объяснения эффекта неперекрытия возможных начальных моментов вмешательства. Неперекрывающиеся возможные стартовые моменты приводят к большей мощности, чем перекрывающиеся стартовые моменты. В условии перекрытия диапазон возможных начальных моментов меньше, чем в условии уникальных возможных начальных моментов. Это приводит к путанице. Выбор перекрывающихся начальных моментов может быть не намеренным выбором исследователя, а просто наложенным практическими ограничениями.Например, в клиническом контексте может потребоваться, чтобы терапия начиналась в пределах определенного диапазона измерений.

Для более высокой мощности рандомизационного теста предпочтительно выбирать аналогичное количество исходных и интервенционных измерений. Этот эффект легко объяснить тем фактом, что большее количество измерений приводит к более стабильным оценкам среднего. Мы сравнили здесь только два условия, потому что ситуация с большим количеством исходных данных, чем измерений вмешательства, может оказаться невозможной на практике.Было несколько замечательных взаимодействий этого фактора. Один — это количество измерений. Всего с 15 измерениями разница в количестве измерений на исходном уровне и фазе вмешательства между двумя состояниями (равное количество наблюдений против большего количества наблюдений вмешательства) относительно мала, что приводит к отсутствию разницы в мощности для двух условий. Однако при 60 измерениях разница в количестве измерений на базовой линии и фазе вмешательства между двумя состояниями велика, что приводит к более высокой мощности в дизайне с таким же количеством измерений, чем в дизайне с большим количеством вмешательств.В схеме с аналогичным количеством измерений оба средних значения будут довольно стабильными оценками, в то время как в плане с большим количеством измерений вмешательства во втором случае оценка исходного среднего значения будет относительно нестабильной.

Существует также интересная взаимосвязь между множителем равного количества измерений и соотношением вариации оценок в фазах. Когда на исходной фазе меньше измерений, а на этой фазе больше вариаций в оценках, мощность оказалась ниже, чем при любой другой комбинации этих двух факторов.Этот эффект можно объяснить тем фактом, что относительно небольшое количество измерений и большие вариации приведут к нестабильным оценкам среднего значения, что отрицательно скажется на мощности.

Количество измерений явно повлияло на мощность рандомизационного теста. Как отмечалось ранее, большее количество измерений приводит к более стабильным средствам, что благоприятно сказывается на мощности. Однако интересным результатом является то, что при прочих равных, мощность увеличилась, в частности, при переходе от 15 до 30 наблюдений.От 30 до 60 прирост мощности небольшой. Это может быть важным результатом с практической точки зрения, потому что сбор 60 измерений может быть довольно сложным.

Результаты нашего исследования показали, что мощность рандомизационного теста не различалась для коррелированных и некоррелированных исходных данных и средств вмешательства для разных участников. Таким образом, хотя влияние автокоррелированных данных на мощность было большим, влияние коррелированных исходных данных и средств вмешательства для участников отсутствовало.Поскольку на практике часто случается, что средние значения базового уровня и оценки вмешательства коррелируют между участниками, может быть полезно знать, что эта корреляция не влияет отрицательно на мощность.

В нашем исследовании с использованием кросс-факторного моделирования мы моделировали только внезапно возникающие эффекты вмешательства. То есть наши данные вмешательства были смоделированы из нормального распределения, имеющего среднее значение, равное указанному размеру эффекта. На практике эффект вмешательства часто может быть постепенным, а не внезапным.В отдельном исследовании с использованием моделирования мы различали внезапно и постепенно возникающие эффекты вмешательства, и результаты показали, что влияние постепенно возникающего эффекта на мощность очень велико. Основываясь на этих результатах, мы советуем исследователю, который в первую очередь интересуется конечным эффектом вмешательства, исключить измерения, в которых эффект все еще проявляется, из рандомизационного теста. Это, конечно, возможно только тогда, когда количество измерений вмешательства, в которых проявился эффект, достаточно велико.Это можно проверить и смоделировать мощность конкретного дизайна с постепенно возникающим эффектом вмешательства с помощью нашего онлайн-инструмента.

В нашем исследовании мы сосредоточились на сравнении индивидуальных средних и средней разницы от исходного уровня и данных вмешательства, сформированных распределением рандомизационного теста. Мы выбрали эту статистику теста, потому что она, вероятно, является наиболее распространенной и известной (например, [14, 41]). Однако рандомизационный тест — это тест, не требующий распространения, и для него не требуется, чтобы статистика теста имела определенную форму.Эта характеристика предлагает исследователю исследовать другие аспекты данных, помимо среднего, такие как медиана и мода. Исследователи могут даже проверить вариации в оценках исходного уровня и вмешательства, диапазоны и даже линии регрессии или колебания во времени могут быть интересными аспектами данных, на которых можно сравнивать исходный уровень и фазу вмешательства. Очевидно, что мощные результаты этого исследования могут быть использованы только для исследования отдельных случаев, когда средняя разница является представляющей интерес статистикой, но мы думаем, что следующим шагом будет исследование мощности теста рандомизации и для других статистических данных.

Как подробно описано во введении, статистическое тестирование было и, возможно, до сих пор не является бесспорной темой в литературе по отдельным случаям. Некоторые исследователи утверждают, что данные следует вообще не агрегировать, а отображать графически, напрямую и в абсолютных показателях [58–59]. По мнению этих исследователей, не только статистическое тестирование должно быть запрещено, но и обобщение данных в описательной статистике ведет к потере информации и, следовательно, может вводить в заблуждение. Мы согласны с этими исследователями в том, что безрассудное получение какой-либо основной статистики для описательных или выводных целей является плохой практикой.Мы также согласны с тем, что — в целом, не только в контексте дизайна отдельных случаев, гораздо больше внимания следует уделять визуальному представлению необработанных данных, прежде чем агрегировать их с какой-либо статистикой. Однако мы думаем, что виновата не описательная или логическая статистика, а небрежность и невежество, с которыми эта статистика применяется и интерпретируется. На наш взгляд, описательная статистика, такая как несколько показателей величины эффекта (см., Например, [8]), а также статистика выводов могут добавить значительную инкрементную достоверность интерпретации данных, полученных в результате планов отдельных случаев, при правильном использовании этой статистики.

Мы считаем, что рандомизационный тест при правильном использовании является очень гибким и дополнительным инструментом для оценки статистической надежности результатов отдельного тематического исследования. Мы подчеркиваем правильное использование, потому что есть некоторые подводные камни, которые легко упустить из виду, но которые могут серьезно затруднить интерпретацию статистического теста. Для правильного использования теста рандомизации в дизайне AB с несколькими базовыми линиями требуется, чтобы один тщательно определил диапазон возможных начальных моментов вмешательства априори , а затем случайным образом нарисовал начальный момент вмешательства.Это важно, потому что в тесте рандомизации предполагается, что каждая комбинация действительно может иметь место и что каждая комбинация начальных моментов имеет равную вероятность быть нарисованной. Когда один из этих аспектов не выполняется, правильная интерпретация значения p- не может быть гарантирована. На практике может быть непросто определить диапазон возможных начальных моментов априори . Возьмем, например, клинический контекст, в котором собираются исходные наблюдения, когда люди находятся в списке ожидания терапии.В этом случае может быть непрактично и даже неэтично заранее определить диапазон возможных стартовых моментов и выбрать его случайным образом. Кроме того, в некоторых случаях может оказаться неадекватным или даже невозможным случайное определение момента начала вмешательства. Это, например, случай, когда вмешательство должно начинаться сразу после того, как базовый уровень достигнет стабильности. В этой ситуации не следует использовать тест рандомизации, обсуждаемый в этой рукописи.

В этом исследовании мы показали, что, учитывая вышеупомянутые ловушки, дизайн AB с несколькими базовыми линиями может оказаться эффективным во многих практических ситуациях.До тех пор, пока наблюдения внутри участника не слишком сильно коррелированы, ни количество участников, ни количество измерений, ни ожидаемый размер эффекта не слишком малы, рандомизационный тест может статистически оценить разницу в исходных показателях и средствах вмешательства. В заключение, мы согласны со многими исследователями в отношении дизайна отдельных случаев, что статистические данные должны развиваться вместе с анализом визуального осмотра. На наш взгляд, эти два вида анализа скорее дополняют, чем несовместимы.Для будущих исследований мы хотели бы расширить это исследование на другие показатели результатов, разработанные с помощью анализа визуального осмотра.

6 основных советов по A / B-тестированию пользовательского интерфейса и дизайна

Нам больше не нужно полагаться на наши дизайнерские инстинкты. Теперь в нашем распоряжении больше данных, чем когда-либо прежде, чтобы помочь нам определить, действительно ли наш выбор дизайна улучшает пользовательский опыт наших цифровых продуктов и услуг и приводит к большему количеству конверсий. A / B-тестирование — метод случайного показа пользователям двух или более вариантов дизайна, чтобы выяснить, какой из них работает лучше, — это лишь один из подходов, которые вы можете использовать.

A / B-тестирование имеет много преимуществ. Зои Гилленуотер, ведущий дизайнер Booking.com, узнала, что он демократизирует дизайн и распределяет полномочия по принятию решений не только в вашей организации, но и за ее пределами — прямо в руки ваших пользователей.

«Это заставляет вас перестать принимать дизайнерские решения, основанные на ваших личных предпочтениях, предубеждениях и эго, и вместо этого позволяет вашим пользователям« голосовать »через свое поведение», — объясняет Гилленуотер. «Когда A / B-тестирование действительно интегрировано в ваш стиль работы, оно также не позволяет руководителям требовать определенных изменений сверху.На Booking.com мы любим говорить, что избегаем HiPPO: мнение самого высокооплачиваемого человека. Мнения и предположения хороши, но вы добьетесь большего успеха, если подтвердите их данными из различных источников, включая A / B-тестирование ».

Но как проводить эффективные A / B-тесты? И как вы анализируете данные и превращаете их в идеи? Мы попросили пять UX-дизайнеров сказать, что им нужно помнить при планировании и проведении A / B-тестов.

Основывайте свою стратегию на трафике

UX-дизайнер Мариса Морби считает, что любой A / B-тест должен в первую очередь иметь надежную стратегию, основанную на посещаемости веб-сайта.

«Если у вас высокий трафик, скажем, 5000 или более уникальных обращений в день, вы можете быстро и постоянно тестировать прототипы или проекты, чтобы постоянно получать новые данные», — объясняет она. «Для сайтов с высоким трафиком ваш A / B-тест должен быть разбит на минимальные возможные изменения, чтобы вы могли сузить круг изменений, которые на самом деле влияют на ваши наиболее важные показатели».

Если у вас низкий трафик (300 или менее уникальных обращений в день), Морби рекомендует, чтобы ваш A / B-тест был большим и эффективным.«Вы можете сделать это, выполняя по одному тесту за раз и тестируя две совершенно разные конструкции. Это поможет вам ясно увидеть, какой дизайн более предпочтителен ».

Gillenwater, тем временем, утверждает, что для получения статистически значимых результатов необходимо иметь достаточный трафик. Вы можете рассчитать, сколько трафика вам нужно и как долго вам нужно запускать тест, используя онлайн-калькулятор мощности A / B-теста.

«Если вы запустите тест со слишком малым трафиком или в течение слишком короткого времени, полученные вами данные, скорее всего, будут неверными», — предупреждает Гилленуотер.«Принимать решения о продукте на основе неверных данных хуже, чем не основывать их на каких-либо данных».

Создайте сильную гипотезу

Краеугольным камнем A / B-тестирования, по мнению Гилленуотер, является формулирование прочной, ориентированной на пользователя гипотезы.

«Без него все разваливается», — предупреждает она. «Хорошая гипотеза должна рассказать вам, почему вы вносите изменение — в чем проблема пользователя, которую вы пытаетесь решить, — а также что это за изменение, для кого оно, какой результат вы ожидаете от этих пользователей и как вы собираетесь измерить этот результат.Без гипотезы вы будете проводить тесты вслепую и в конечном итоге получите огромную кучу данных, с которыми не будете знать, что делать ».

Когда у вас нет сильной гипотезы, Гилленуотер говорит, что вы сможете тщательно отбирать эти данные для поддержки предположений, которые у вас уже есть, вместо того, чтобы оценивать только наиболее релевантные метрики в сравнении с вашей заранее заданной гипотезой о том, что должно произойти. им, чтобы указать на успех.

«Никогда, никогда не запускайте тест только потому, что можете», — предупреждает Гилленуотер.«Запускайте тест только потому, что у вас есть веская гипотеза о том, почему это изменение имеет смысл».

Расставьте приоритеты для идей тестирования

Дизайнер Ник Дисабато, который руководит консалтинговой компанией Draft по интерактивному дизайну и написал книгу о ценностно-ориентированном дизайне, отмечает, что коэффициент успешности A / B-тестирования в отрасли составляет около 12,5%. Показатель успешности черновика превышает 60 процентов, а ConversionXL — более 90 процентов. Что они делают по-другому? Дисабато говорит, что они знают , что нужно тестировать , и , когда .

«Недостаточно проверить цвета кнопок или заголовки», — объясняет он. «Сложные оптимизаторы исследуют, что тестировать, и соответственно расставляют приоритеты среди идей тестирования. Знание того, что тестировать, — самая важная часть любой программы оптимизации ».

Для каждой идеи тестирования Disabato предлагает оценить ее осуществимость, влияние и стратегическую согласованность:

  • Выполнимость . Насколько сложно это построить? Требуются ли усилия по разработке, новые прототипы, каркасы или флаги функций?
  • Удар .Насколько вероятно, что это изменение повлияет на измеряемый вами показатель? Вы меняете основной элемент над сгибом, например заголовок; или вы меняете что-то маленькое, на что мало кто обращает внимание?
  • Выравнивание. Насколько идея тестирования соответствует долгосрочной стратегии бизнеса?

«Сложите каждую оценку и отсортируйте свои идеи тестов в порядке убывания», — советует Дисабато. «Теперь вы должны иметь представление о том, что тестировать и почему.Сделайте это с любой новой идеей тестирования и пересматривайте весь список каждые пару месяцев ».

Ник Дисабато координирует планы тестирования через Trello.

Примите участие в неудачных тестах и ​​приготовьтесь к ним

В идеале результат A / B-теста — ошеломляющее «ага!» Но правда в том, что большинство A / B-тестов не дают статистически значимых результатов. В таком случае UX-дизайнер Золтан Коллин, старший менеджер по дизайну в IBM Watson Media, предполагает, что вы всегда можете провести эксперимент немного дольше.

«Может быть, дополнительный трафик приведет вас в статистически значимую зону, — говорит он, — но есть момент, когда вам нужно признать, что ваша блестящая идея не повысит коэффициент конверсии. Если вы уверены в своей гипотезе, возможно, вы захотите пересмотреть свое исполнение. Возможно, разница в дизайне была слишком незначительной, чтобы пользователи могли ее заметить, не говоря уже о том, чтобы привести к значительным результатам. Возможно, вы не перебирали самый впечатляющий экран или элемент дизайна. Почему бы не вернуться и не подумать о других дизайнерских решениях, сосредоточившись на общей картине? »

Если ваша гипотеза была полностью опровергнута A / B-тестом, не сдавайтесь.Коллин отмечает, что, по крайней мере, вам удалось выяснить это вовремя. Дополнительные исследования пользователей могут выявить причины и открыть некоторые дальнейшие возможности.

«Хорошая новость в том, что A / B-тест — это инструмент проверки, поэтому он буквально не может потерпеть неудачу», — поощряет Коллин. «Ваш предпочтительный дизайн не всегда будет выигрывать, но вы можете измерить влияние изменений пользовательского интерфейса, чтобы принимать обоснованные дизайнерские решения. И, кстати, иногда результат «нет разницы» просто идеален: он дает вам научное доказательство того, что вы можете реализовать свой предпочтительный дизайн без риска.

Gillenwater соглашается и сообщает, что на Booking.com примерно девять из 10 тестов терпят неудачу — это очень нормальный показатель для отрасли. Но неудачные тесты по-прежнему невероятно ценны.

«Неудачные тесты доказывают, что что-то не работает», — отмечает она. «Данные, которые вы почерпнете из них, помогут вам сформулировать следующую гипотезу для следующей итерации, увеличивая ваши шансы на успех при следующей попытке. Это одна из причин, по которой мы в основном проводим небольшие быстрые тесты на Booking.com — когда мы «быстро терпим неудачу», мы можем быстрее учиться, повторять и добиваться успеха ».

Нет результатов? Не стоит беспокоиться! Если ваш A / B-тест дает идентичные результаты, не паникуйте. Возможно, это просто нужная вам проверка.

A / B-тесты не раскрывают всей истории

Гилленуотер из Booking.com говорит, что важно помнить, что данные, которые вы получаете в результате A / B-тестирования, — это не история.

«Это всего лишь одна идея из целого ряда идей, которую вы должны использовать, чтобы выяснить историю опыта ваших пользователей», — отмечает она.«Одни и те же данные могут рассказывать разные истории. Если вы не начали свой тест с твердой гипотезы, основанной на других выводах, у вас не будет надежного способа понять, что полученные данные говорят вам об истории. Например, предположим, что вы вносите изменения, и время, проведенное на странице, сокращается. Это хорошо или плохо? Я могу придумать много историй, чтобы раскрутить их так или иначе. История, которая ближе всего к истине, будет зависеть от того, что моя гипотеза, входящая в тест, рассказала мне о том, что должно произойти со временем на странице, а также другие подтверждающие данные, полученные как из других количественных показателей, так и из качественных исследований, таких как тестирование пользователей.

Морби соглашается и говорит, что A / B-тестирование прекрасно сочетается с исследованиями клиентов, чтобы помочь вам понять, почему люди ведут себя определенным образом.

На основе пользовательского исследования Booking.com провел серию тестов, добавив количество спален, кроватей и ванных комнат в карточки результатов поиска, с гипотезой, что это поможет пользователям легче найти жилье, соответствующее их требованиям.

Не теряйте внимание пользователя

A / B-тестирование — отличный инструмент для определения того, какой вариант дизайна будет работать лучше в количественном отношении.Однако, как отмечает Джулиан Гавириа, директор по пользовательскому опыту Thomasnet.com, A / B-тестирование не позволяет определить, какой вариант обеспечивает лучший пользовательский опыт.

«С ростом популярности в эпоху дизайна, основанного на данных, становится все более обычным видеть, что веб-сайты чрезмерно оптимизированы для конверсий, но при этом разрушают их пользовательский опыт», — предупреждает он. «Проблема с сосредоточением исключительно на конверсиях заключается в том, что вы, скорее всего, пожертвуете устойчивым долгосрочным ростом ради краткосрочной выгоды.”

Чтобы найти баланс между этими двумя аспектами, команда Thomasnet.com разработала следующие процессы, которые помогают им уделять столько же внимания количественным ключевым показателям эффективности (например, отзывы пользователей и записи пользователей), сколько качественным. KPI (например, регистрация пользователей и отправка форм) при запуске любого типа A / B-теста.

Интегрированный стек A / B-тестирования

«У нас есть наш стек A / B-тестирования, глубоко интегрированный с нашими инструментами обратной связи и записи пользователей», — объясняет Гавирия.«Всякий раз, когда пользователь оставляет отзыв, мы можем увидеть соответствующий A / B-тест и вариант, в который был добавлен пользователь, а также ссылку на запись сеанса. Это становится чрезвычайно полезным при выявлении неблагоприятных последствий и проблем, о которых нельзя было бы узнать сами по себе ».

Thomasnet.com использует инструмент обратной связи Usabilla — на снимке экрана показан URL-адрес записи пользователя (размытый) и список соответствующих тестов с вариациями.

Обзоры игровых фильмов для всей команды

Чтобы убедиться, что информация, собранная с помощью тестового стека, демократизирована, команда еженедельно проводит «обзоры игровых фильмов» для членов команды во всех отделах, чтобы смотреть пользовательские записи из тестов, запущенных на этой неделе.

«Это одна из лучших привычек, которые мы смогли выработать как организация», — отмечает Гавирия. «Они не только помогают нам получить качественное представление о наших A / B-тестах, эти дополнительные встречи обычно вызывают увлекательные беседы, в результате которых появляются новые идеи тестирования, различные точки зрения и общие знания во всех командах».

Принципы дизайна, ориентированные на пользователя

Независимо от того, сколько отзывов пользователей получено и сколько пользовательских записей просматривается, вы мало что сможете сделать, если создаваемые вами тесты не имеют лучших намерений для ваших пользователей.

«Наши проектные решения при проведении экспериментов руководствуются набором ориентированных на пользователя принципов проектирования, характерных для нашей организации», — объясняет Гавирия. «Это значительно сэкономило время, поскольку помогло увести идеи тестирования от деструктивных темных шаблонов к экологически безопасным проектам, направленным на улучшение общего пользовательского опыта».

Успех провала

Не каждый продукт можно протестировать A / B, и даже если это возможно, к этому процессу нужно привыкнуть. Большинство тестов обречены на провал, и вы обнаружите, что большинство ваших предположений были ошибочными и что ваш опыт не так велик, как вы думали, что может вызывать разочарование.Однако важно не сдаваться и научиться извлекать максимальную пользу из неудавшихся пользовательских тестов. A / B-тестирование — мощное дополнение к набору инструментов UX-дизайнера, но помните, что тестирование не нужно проводить ради тестирования, и всегда помните о своих пользователях. Если все сделано правильно, измерение и тестирование поведения пользователей в реальном времени с помощью A / B-тестирования может значительно улучшить как пользовательский опыт, так и конверсию.

Эми Клостерман | AB Design Elements

Жилое пространство на открытом воздухе для ICONIC HAUS 2020 является стильным отражением архитектурного духа этого дома… современное и минималистское пространство с акцентами цвета и формы.Дом спроектирован удостоенным наград местным архитектором К.П. Дрюитт, вдохновленный мексиканским архитектором Луисом Баррагоном, который использовал простые линии и плоскости с прямыми углами и добавил драматизма с помощью света, тени и ярких насыщенных цветов. Современный стиль — это упражнение в сдержанности. Это означает меньше визуального беспорядка и больше внимания
ключевым элементам — форме, тени, цвету и масштабу. Скульптурные круглые качели — отличное место для отдыха, они контрастируют по форме с прямыми чистыми линиями камина.Масштабное произведение абстрактного искусства было заказано художницей Ники Вёлер, его цвета мрачные и красиво многослойные. Подобные искусные и драматические произведения придают индивидуальность пространству, и этот холст предназначен БЫТЬ стеной, а не просто частью, висящей на стене. Мы решили использовать коллекцию STILL от Brown Jordan, главного спонсора этого Iconic Estate. Он имеет современную ретро-атмосферу и элегантный стиль, который нам нужен для нашей гостиной на открытом воздухе… места для вечерних коктейлей и лаунж-вечеринок.Расслабься и наслаждайся!

AB Design Elements — это фирма по дизайну жилых интерьеров с полным спектром услуг, специализирующаяся на роскошном ремонте, нестандартных домах и меблировке. Мы ценим творческое сотрудничество КОМАНДЫ дизайнеров, постоянное общение и красоту простого и элегантного дизайна. Наши работы часто включают изысканные и искусные палитры в сочетании с текстурными элементами, чтобы создать удобные и красивые пространства. Мы понимаем, что важны детали и бюджет, и наши комплексные архитектурные пакеты интерьера отражают это.Веселый и исследовательский процесс планирования пространства, создания эскизов и выбора инновационных материалов лежит в основе всех наших проектов.

Эми (Бубье) Клостерман является руководителем AB Design Elements и работает в сфере коммерческого и жилого дизайна с 1992 года. В 2017 году она была лауреатом премии Masters of the Southwest от журнала Phoenix Home and Garden Magazine, часто появлялась в дизайнерских журналов и получил (14) награды ASID Design Excellence за первое место, включая «Лучшее шоу», а также был назван Тото / Бризо «Дизайнером года» в 2017 году.Мы приглашаем вас изучить наш профиль и обзоры на Houzz, а также ознакомиться с нашим портфолио на abdesignelements.com

Дизайн не создает красоты, красота возникает из выбора, близости, интеграции, любви… — Луи Кан

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Copyright © 2024 homyrouz.ru — Банкетный зал Хоми Роуз. All rights reserved.