Jeditobe
@Jeditobe

Как правильно обработать статистику опроса о маршрутах транспорта?

Помогите извлечь важную информацию из итогов опроса. Проводился социологический опрос горожан, пользователей общественного транспорта. Было два вопроса - назовите 1 лучший и 1 худший маршрут транспорта. Можно было назвать только по 1 маршруту в каждой категории. Всего проголосовало около 450 человек

При подсчете появились топ и анти-топ маршрутов:
6397341b65c64622435178.jpeg
Два маршрута попали в оба топа сразу. Как лучше интерпретировать данную информацию со статистической точки зрения? Можно ли сформулировать гипотезы, можно ли ввести какие-то веса для коррекции рейтинга и его большей объективности?

Задача именно проявить картинку в головах пассажиров. Наказывать или награждать по результатам опроса никого не будут. Здесь была попытка отследить насколько влияет реформирование маршрутной сети на картинку в головах пассажиров.

Авторизация была через Госуслуги, поэтому исключаем вопрос возможной накрутки и подтасовки ответов для данной ситуации..
  • Вопрос задан
  • 89 просмотров
Пригласить эксперта
Ответы на вопрос 3
Rsa97
@Rsa97
Для правильного вопроса надо знать половину ответа
И что такого особенного в этой ситуации? Кто-то считает, что маршрут хороший, потому что одна конечная около дома, вторая около работы. Кто-то что маршрут плохой, потому что его остановки в середине маршрута и автобус всегда забит до упора. Ну и, при прочих равных, маршрут, которым ездит миллион человек в день будет в обоих рейтингах выше маршрута, которым ездит тысяча человек.
Пока не формализованы критерии отнесения в лучший/худший и данные не приведены к количеству перевозимых пассажиров, статистика бесполезна.
Ответ написан
Maksim_64
@Maksim_64
Data Analyst
Первое надо быть уверенными что дизайн опроса был составлен согласно математической статистике. Существует несколько направлений случайно выборки.
Например:
1. простая случайная выборка (каждый имеет равный шанс быть выбранным для участия в опросе)
2. случайная выборка где предварительно участники опроса были разбиты на группы например по возрасту, полу, и.т.п и веса в выборке становятся процентами размера группы от общего количества.
3. Кластерная например (это когда люди разбиты на группы и потом еще и группы выбираются случайно)
и т.д.
Если эксперимент не был организован как нужно то интерпретировать нечего.
Если я вас правильно понял то выборка была произведена через сайт Госуслуги.
Авторизация была через Госуслуги, поэтому исключаем вопрос накрутки и подтасовки для данной ситуации..

Я не считаю данную выборку репрезентативной (она лишь может служить одной из групп). Задаете вопрос на улице (одна группа) на Госуслугах (другая) может опрос по телефону кого нет на Госуслугах (третья).
Одна и целей статистики это делать выводы имея данные относительно малой группы участников эксперимента о большой. И что бы это осуществить выборка должна быть репрезентативной. В данном случае "большая" группа это люди зарегистрированные на Госуслугах жители Ставрополя а цель делать выводы о мнении Жителей города Ставрополя пользующихся общественным транспортом. То есть дизайн эксперимента построен не корректно и выводов делать нельзя.

Если я вас не правильно понял и дизайн эксперимента составлен корректно. Какие возможны выводы.
Самый очевидный 48 маршрут самый популярный (востребованный) 24% процента респондентов проголосовали за него (независимо от результата лучший или худший) то есть он самый востребованный это то место где должна быть проведена дополнительная работа.
По поводу гипотез да можно у вас есть дистрибуция данных т.е. все необходимые статистики для соответствующих тестов легко находятся из этих данных.
По поводу весов опять таки да при условии что респонденты были разбиты на группы.
Но это все актуально если дизайн эксперимента сделан корректно. По этому поводу я высказался вначале.
Ответ написан
Griboks
@Griboks
Как лучше интерпретировать данную информацию со статистической точки зрения?

Никак, у вас же нет статистики, есть только две случайные величины. Максимум, что вы можете сделать, - это определить доверительную вероятность, которая отражает репрезентативность выборки. Должно быть, на глаз, не менее 1000 - 2000 участников.

Поэтому вам необходимо в первую очередь определиться, зачем вы вообще проводили этот опрос кроме как для отмывания денег. И какой отчёт хочет получить начальник.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы