Как правильно обработать статистику опроса о маршрутах транспорта?

Question

Jeditobe @Jeditobe

Как правильно обработать статистику опроса о маршрутах транспорта?

Помогите извлечь важную информацию из итогов опроса. Проводился социологический опрос горожан, пользователей общественного транспорта. Было два вопроса - назовите 1 лучший и 1 худший маршрут транспорта. Можно было назвать только по 1 маршруту в каждой категории. Всего проголосовало около 450 человек

При подсчете появились топ и анти-топ маршрутов:

Два маршрута попали в оба топа сразу. Как лучше интерпретировать данную информацию со статистической точки зрения? Можно ли сформулировать гипотезы, можно ли ввести какие-то веса для коррекции рейтинга и его большей объективности?

Задача именно проявить картинку в головах пассажиров. Наказывать или награждать по результатам опроса никого не будут. Здесь была попытка отследить насколько влияет реформирование маршрутной сети на картинку в головах пассажиров.

Авторизация была через Госуслуги, поэтому исключаем вопрос возможной накрутки и подтасовки ответов для данной ситуации..

Вопрос задан более трёх лет назад
106 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Data Scientist с нуля

10 месяцев

Далее
Академия Эдюсон

Machine Learning: тариф Базовый

7 месяцев

Далее
ProductStar × РБК

Математика и статистика для аналитика на Python

1 месяц

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

2 комментария

Jeditobe @Jeditobe Автор вопроса

Ссылки на опрос распространяли по разным источникам среди жителей Ставрополя. Госуслуги были задействованы как инструмент контроля накруток и повторных голосований. Трафик с самих госуслуг был минимальным.

Написано более трёх лет назад
Максим Припадчев @Maksim_64

Jeditobe, Ну если вы уверены в репрезентативности выборки то. У вас есть все данные для статического анализа, тестирования гипотез и т.д. Достаточно ли 450 человек, да достаточно. Я в корне не согласен что нужно 1000-2000 участников или что информация бесполезна и не позволяет делать выводов. По поводу весов вы упомянули что данные получены из разных источников т.е размер группы / общее количество респондентов это уже ваши веса. Затем можно сравнить по группам нет ли аномалий в ответах среди групп это так в преддверии анализа. Препятствий для статического анализа с соответствующими выводами я не вижу.

Написано более трёх лет назад

4 комментария

Jeditobe @Jeditobe Автор вопроса

Опрос проводится бесплатно и начальника нет, ваши заявления про отмывание денег оскорбительны и неуместны.

Написано более трёх лет назад
Griboks @Griboks

Jeditobe, так а зачем вы проводите опрос? Вам нечего делать или хотите что-то узнать? Или просто не хотите занимать рутинными делами?

Написано более трёх лет назад
Jeditobe @Jeditobe Автор вопроса

Griboks, меня интересует только вопрос по существу, который я задал. Какие данные можно извлечь из имеющихся ответов. Пусть даже и с огромными погрешностями. Ничего другого я с вами обсуждать не имею желания.

Написано более трёх лет назад
Griboks @Griboks

Jeditobe, статистика так не работает. Вы не можете взять случайные данные и осознать вопросы мироздания, глядя на табличку с числами. Вы должны соблюдать строгий план, чтобы получить более менее научные результаты:
1. постановка научной проблемы
2. обзор существующих решений
3. выбор метода исследования
4. сбор данных (далее всё идёт по выбранному методу)
5. подготовка к анализу (удаление выбросов, нормализация и т.п.)
6. анализ данных
7. интерпретация результатов
8. решение поставленной проблемы
9. сравнение с существующими решениями
10. выбор решения

Если же ваш опрос выглядит как "что-нибудь спросим, а потом графики сами всё расскажут", то вы можете смело интерпретировать результаты любым выгодным для вас способом, ибо случайный опрос даёт случайный результат.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Математика

Простой
Опечатка или нет?
- 1 подписчик
- 17 июл.
- 143 просмотра
2

ответа
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 159 просмотров
2

ответа
Математика

Средний
Что такое отношения в предикатной логике?
- 1 подписчик
- 05 июл.
- 154 просмотра
2

ответа
Карьера в IT

+1 ещё

Средний
Хочу попробовать стать системным аналитиком, с чего лучше начать и во сколько попытаться найти работу?
- 5 подписчиков
- 25 июн.
- 1172 просмотра
6

ответов
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 117 просмотров
1

ответ
Информационная безопасность

+3 ещё

Простой
Утечка кейвордов в Телеграм при посещении постороннего сайта?
- 3 подписчика
- 03 июн.
- 328 просмотров
3

ответа
IT-образование

+2 ещё

Средний
Бизнес и системный аналитик: кто это?
- 2 подписчика
- 29 мая
- 437 просмотров
4

ответа
Машинное обучение

+1 ещё

Простой
Какие темы в статистике нужно изучить прежде всего, чтобы начать решать простые задачи машинного обучения?
- 2 подписчика
- 25 мая
- 235 просмотров
2

ответа
Математика

Простой
Биекция в комбинаторике на конечных множествах?
- 1 подписчик
- 30 апр.
- 142 просмотра
1

ответ
Аналитика

Средний
DAX \ Power BI как сделать меру через промежуточную таблицу?
- 2 подписчика
- 08 апр.
- 76 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2022-12-12 17:32:40

И что такого особенного в этой ситуации? Кто-то считает, что маршрут хороший, потому что одна конечная около дома, вторая около работы. Кто-то что маршрут плохой, потому что его остановки в середине маршрута и автобус всегда забит до упора. Ну и, при прочих равных, маршрут, которым ездит миллион человек в день будет в обоих рейтингах выше маршрута, которым ездит тысяча человек.
Пока не формализованы критерии отнесения в лучший/худший и данные не приведены к количеству перевозимых пассажиров, статистика бесполезна.

Answer 2 · 2022-12-12 17:58:38

Первое надо быть уверенными что дизайн опроса был составлен согласно математической статистике. Существует несколько направлений случайно выборки.
Например:
1. простая случайная выборка (каждый имеет равный шанс быть выбранным для участия в опросе)
2. случайная выборка где предварительно участники опроса были разбиты на группы например по возрасту, полу, и.т.п и веса в выборке становятся процентами размера группы от общего количества.
3. Кластерная например (это когда люди разбиты на группы и потом еще и группы выбираются случайно)
и т.д.
Если эксперимент не был организован как нужно то интерпретировать нечего.
Если я вас правильно понял то выборка была произведена через сайт Госуслуги.

Авторизация была через Госуслуги, поэтому исключаем вопрос накрутки и подтасовки для данной ситуации..

Я не считаю данную выборку репрезентативной (она лишь может служить одной из групп). Задаете вопрос на улице (одна группа) на Госуслугах (другая) может опрос по телефону кого нет на Госуслугах (третья).
Одна и целей статистики это делать выводы имея данные относительно малой группы участников эксперимента о большой. И что бы это осуществить выборка должна быть репрезентативной. В данном случае "большая" группа это люди зарегистрированные на Госуслугах жители Ставрополя а цель делать выводы о мнении Жителей города Ставрополя пользующихся общественным транспортом. То есть дизайн эксперимента построен не корректно и выводов делать нельзя.

Если я вас не правильно понял и дизайн эксперимента составлен корректно. Какие возможны выводы.
Самый очевидный 48 маршрут самый популярный (востребованный) 24% процента респондентов проголосовали за него (независимо от результата лучший или худший) то есть он самый востребованный это то место где должна быть проведена дополнительная работа.
По поводу гипотез да можно у вас есть дистрибуция данных т.е. все необходимые статистики для соответствующих тестов легко находятся из этих данных.
По поводу весов опять таки да при условии что респонденты были разбиты на группы.
Но это все актуально если дизайн эксперимента сделан корректно. По этому поводу я высказался вначале.

Answer 3 · 2022-12-13 00:01:52

Как лучше интерпретировать данную информацию со статистической точки зрения?

Никак, у вас же нет статистики, есть только две случайные величины. Максимум, что вы можете сделать, - это определить доверительную вероятность, которая отражает репрезентативность выборки. Должно быть, на глаз, не менее 1000 - 2000 участников.

Поэтому вам необходимо в первую очередь определиться, зачем вы вообще проводили этот опрос кроме как для отмывания денег. И какой отчёт хочет получить начальник.

Как правильно обработать статистику опроса о маршрутах транспорта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт