Одна из основных целей измерения пользовательского опыта заключается в том, чтобы увидеть, действительно ли приложенные усилия по проектированию дают количественную разницу во времени. Регулярное эталонное исследование - отличный способ институционализировать идею количественных различий. Эталонные тесты наиболее эффективны, когда они проводятся через регулярные промежутки времени (например, ежеквартально или ежегодно) или после значительных изменений дизайна или характеристик.
Тест UX в бенчмаркинге — это что-то вроде обследования у доктора. Вы проверяете свое кровяное давление, вес, рост, холестерин и другие показатели здоровья. Эти показатели помогают количественно описать, насколько вы здоровы. Их можно сравнить с существующими критериями (например, чтобы определить, является ли ваше кровяное давление или уровень холестерина относительно высоким) и отслеживать с течением времени. Если есть проблема, вы создаете план по улучшению вашего здоровья. И та же самая идея относится к тестам UX (Sauro, 2018, стр. 2).
Для эталонных исследований требуется больший размер выборки, чем для традиционных формальных исследований юзабилити. Большие размеры выборки необходимы для обеспечения более точных оценок параметров совокупности по ключевым метрикам задачи (например, частоте выполнения и времени) и метрикам исследования (например, SUPR-Q и SUS). При сравнении с более ранними тестами или конкурентами размеры выборки должны быть достаточно большими, чтобы отделить сигнал о реальных улучшениях опыта от неизбежного шума ошибки выборки.
Поиск правильного размера выборки для эталонных исследований включает в себя баланс как статистических, так и логистических соображений.
Статистические соображения
Статистические соображения для определения размеров выборки довольно просты после того, как вы решите математику (что мы и сделали для вас). У нас есть таблицы в книге сравнительного анализа, которые показывают, как достичь определенного уровня точности в отдельном исследовании (таблица 1) и как определить ожидаемый размер разницы (таблица 2).
Погрешность (90% достоверности) |
Размер образца |
24% |
10 |
20% |
15 |
17% |
21 |
15% |
28 |
14% |
32 |
13% |
38 |
12% |
45 |
11% |
54 |
10% |
65 |
9% |
81 |
8% |
103 |
7% |
136 |
6% |
186 |
5% |
268 |
4% |
421 |
3% |
749 |
Таблица 1: Размеры выборки для автономных эталонных исследований для уровня достоверности 90% (с использованием бинарного коэффициента завершения при 50%). Адаптировано из Таблицы 6.1 в Бенчмаркинге взаимодействия с пользователем.
Например, для отдельного эталонного исследования для достижения погрешности ниже 10% с 90% -ной достоверностью по большинству показателей планируйте размер выборки 65.
Если вы сравниваете свой опыт с более ранним дизайном или дизайном конкурента с разными пользователями в каждом контрольном исследовании и хотите обнаружить различия в 12% или более, вы должны запланировать размер выборки 213 в каждой группе для промежуточных предметов. исследование или 93 всего для изучения в рамках предметов.
Для получения более подробной информации об этих вычислениях см. Главу 6 в разделе «Сравнение пользовательского опыта».
Разница для обнаружения 90% уверенности и 80% силы |
Размер образца Внутренних-субъектов |
Размер выборки между субъектами (Каждая группа) |
50% |
17 |
11 |
40% |
20 |
17 |
30% |
29 |
32 |
20% |
50 |
75 |
12% |
93 |
213 |
10% |
115 |
307 |
9% |
130 |
380 |
8% |
148 |
481 |
7% |
171 |
629 |
6% |
202 |
857 |
5% |
246 |
1234 |
4% |
312 |
1930 |
3% |
421 |
3433 |
2% |
640 |
7726 |
1% |
1297 |
30911 |
Таблица 2: Размеры выборки для сравнительных исследований для контрольных показателей внутри и между субъектами (с использованием достоверности 90% и мощности 80%). Адаптировано из Таблицы 6.2 в сравнительном тестировании пользовательского опыта.
Если стоимость на одного участника относительно мала (скажем, менее 15 долларов), и у вас есть много образцов, из которых можно извлечь, то это просто вопрос использования таблиц и планирования вашего исследования. Для многих пользователей веб-сайтов стоимость набора и гонораров для 100–200 участников для немодерируемого исследования сопоставима с проведением модерируемого исследования с участием десяти человек.
Но что, если у вас нет доступа к большому количеству пользователей или вам сложно и дорого набрать таких пользователей, как владельцу малого бизнеса или пользователю нишевого программного обеспечения для расчета заработной платы?
Логистические соображения
Часто именно материально-технические ограничения поиска подходящих участников в рамках разумного бюджета и времени определяют размер выборки.
Работая с клиентами в MeasuringU, мы нередко сталкиваемся с серьезными проблемами в поиске достаточного количества подходящих участников; например, пользователям программных продуктов B2B может потребоваться установить определенные профили. Затем наше обсуждение поворачивается от идеального размера выборки к минимальному размеру выборки, который все равно будет получать «значимые» данные.
Хотя нет четкого порогового значения, когда данные переходят от бессмысленных к значимым, вы можете посмотреть таблицы размеров выборки, чтобы попытаться найти размер выборки, при котором вы получите максимальный прирост точности при небольшом увеличении размера выборки.
Уровень точности повышается больше всего, когда размеры выборки невелики. Вы получаете максимальную выгоду от увеличения размера выборки после первых нескольких участников, после чего наблюдается уменьшение прибыли.
Например, в Таблице 1 вы можете видеть, что предел погрешности вокруг ваших показателей уменьшается на семь пунктов (от 24% до 17%) при переходе от размера выборки от 10 до 21. Чтобы еще больше повысить точность с еще одним снижением на семь пунктов погрешность, вам нужно более чем в три раза увеличить размер выборки (n = 65).
Для исследований по предметам вы также можете обнаружить различия в показателях завершения при размерах выборки от 20 до 30, хотя различия относительно велики (различия 30–40% + - см. Таблицу 2, начинающуюся с 40% и 30%) , Для выявления 40% различий в исследовании между субъектами вам потребуется около 34 участников (17 х 2).
Обе таблицы предполагают, что коэффициент заполнения составляет 50%, что приводит к самым консервативным оценкам размера выборки. Что касается времени выполнения задачи, мы обнаружили в более ранних исследованиях, что размер выборки 20 имеет аналогичный предел погрешности (менее 20% для достоверности 95%).
Мы также можем использовать большие наборы данных, которые мы имеем в шкале юзабилити системы (SUS) и вопросе об одном простоте (SEQ), чтобы сгенерировать исторические стандартные отклонения 21 для SUS и 1 для SEQ (изменчивость является ключевым компонентом в вычислениях размера выборки ). Эти данные привели к записи в таблице 3.
Метрика |
Автономная маржа |
Внутренняя разница между субъектами |
Внешняя разница между субъектами |
SEQ |
0.4 |
0.58 |
0.8 |
SUS |
8 |
12 |
17 |
Таблица 3: SEQ и SUS ожидаемый предел погрешности (n = 20) для автономных исследований с доверительной вероятностью 90% и обнаружимые различия для сравнений между субъектами и между субъектами для достоверности 90% и мощности 80%.
При размере выборки 20 предел погрешности составляет около 8 баллов для SUS и около 0,4 балла для SEQ. Если вы получите оценку SUS 70 в конце теста с 20 участниками, ожидаемый 90% доверительный интервал будет колебаться от 62 до 78. Для SEQ, если вы наблюдаете среднее значение 5,5 с n = 20, 90% доверительный интервал будет около 5,1-5,9. Таблица 3 также показывает, что можно обнаружить большие различия в исследованиях внутри и между субъектами. При размере выборки 20 с использованием экспериментального плана внутри субъекта вы можете обнаружить разницу в .58 в баллах SEQ и разницу в 12 баллов в баллах SUS. Для проектов между субъектами критические различия составляют 17 для SUS и 0,8 для SEQ.
Таким образом, как для самостоятельных, так и для сравнительных исследований (особенно внутри субъектов) размеры выборки от 20 до 30, по-видимому, обеспечивают наибольший прирост точности измерений при наименьшей боли при наборе.
Проблемы обнаружения проблем
Поскольку большинство эталонных исследований часто имеют целью не только количественно оценить опыт, но и найти причины, стоящие за цифрами, вы также можете принять во внимание способность обнаруживать проблемы.
При размере выборки 20 вы можете увидеть большинство наиболее очевидных проблем с юзабилити и множество менее очевидных. На рис. 1 показана вероятность появления проблемы хотя бы один раз в зависимости от того, насколько часто она возникает при размерах выборки 10 и 20. Вы достигаете почти насыщения (обнаружение 100%) для проблем, которые затрагивают 25% клиентов, когда n = 10. Но для редких проблем (затрагивающие 1% клиентов), вы удваиваете свое обнаружение с 10% с n = 10 до 20%, когда n = 20.
При размере выборки 20 вероятность возникновения проблем, по крайней мере, один раз затрагивает 10% или более пользователей, по крайней мере, один раз (по крайней мере, 65% при n = 10). Для справки: считается, что печально известный бюллетень «бабочка» затронул примерно 1 из 10 избирателей, поэтому при размере выборки 20 у вас был бы очень хороший шанс увидеть этот вопрос хотя бы один раз.
Рисунок 1: Вероятность обнаружения проблемы UI по крайней мере один раз для n = 10 и n = 20 для проблем с вероятностью возникновения от 1 до 90%.
Резюмируя
Если затраты и время (логистика) для набора персонала не являются чрезмерными, определите размер своей выборки на основе статистической точности, необходимой для отдельного исследования, или размера разницы, которую вы надеетесь обнаружить для сравнительного сравнительного исследования. Если стоимость выборки высока или трудно найти участников, нацеливайте как минимум 20-30 участников.
Если это оказывается невозможным, вы можете немного ослабить минимальный размер выборки. Данные не бессмысленны, когда n = 18 или 19, но немного менее точны. Но для гораздо меньших размеров выборки всегда используйте таблицы или какие-либо средства определения того, является ли размер выборки слишком малым для достижения точности / насыщенности, необходимых для решений, которые вы должны принять. Если это так, вам следует серьезно подумать о пересмотре своих планов сравнительного анализа, чтобы получить достаточно участников.
Перевод статьи. Оригинал - https://measuringu.com/sample-size-recommendations/