Как правильно обработать статистику опроса о маршрутах транспорта?

Question

Jeditobe @Jeditobe

Как правильно обработать статистику опроса о маршрутах транспорта?

Помогите извлечь важную информацию из итогов опроса. Проводился социологический опрос горожан, пользователей общественного транспорта. Было два вопроса - назовите 1 лучший и 1 худший маршрут транспорта. Можно было назвать только по 1 маршруту в каждой категории. Всего проголосовало около 450 человек

При подсчете появились топ и анти-топ маршрутов:

Два маршрута попали в оба топа сразу. Как лучше интерпретировать данную информацию со статистической точки зрения? Можно ли сформулировать гипотезы, можно ли ввести какие-то веса для коррекции рейтинга и его большей объективности?

Задача именно проявить картинку в головах пассажиров. Наказывать или награждать по результатам опроса никого не будут. Здесь была попытка отследить насколько влияет реформирование маршрутной сети на картинку в головах пассажиров.

Авторизация была через Госуслуги, поэтому исключаем вопрос возможной накрутки и подтасовки ответов для данной ситуации..

Вопрос задан более двух лет назад
94 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Математика для анализа данных

6 месяцев

Далее
Нетология

Data Scientist: расширенный курс

13 месяцев

Далее
Skillfactory

Профессия Data Scientist

24 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

2 комментария

Jeditobe @Jeditobe Автор вопроса

Ссылки на опрос распространяли по разным источникам среди жителей Ставрополя. Госуслуги были задействованы как инструмент контроля накруток и повторных голосований. Трафик с самих госуслуг был минимальным.

Написано более двух лет назад
Максим Припадчев @Maksim_64

Jeditobe, Ну если вы уверены в репрезентативности выборки то. У вас есть все данные для статического анализа, тестирования гипотез и т.д. Достаточно ли 450 человек, да достаточно. Я в корне не согласен что нужно 1000-2000 участников или что информация бесполезна и не позволяет делать выводов. По поводу весов вы упомянули что данные получены из разных источников т.е размер группы / общее количество респондентов это уже ваши веса. Затем можно сравнить по группам нет ли аномалий в ответах среди групп это так в преддверии анализа. Препятствий для статического анализа с соответствующими выводами я не вижу.

Написано более двух лет назад

4 комментария

Jeditobe @Jeditobe Автор вопроса

Опрос проводится бесплатно и начальника нет, ваши заявления про отмывание денег оскорбительны и неуместны.

Написано более двух лет назад
Griboks @Griboks

Jeditobe, так а зачем вы проводите опрос? Вам нечего делать или хотите что-то узнать? Или просто не хотите занимать рутинными делами?

Написано более двух лет назад
Jeditobe @Jeditobe Автор вопроса

Griboks, меня интересует только вопрос по существу, который я задал. Какие данные можно извлечь из имеющихся ответов. Пусть даже и с огромными погрешностями. Ничего другого я с вами обсуждать не имею желания.

Написано более двух лет назад
Griboks @Griboks

Jeditobe, статистика так не работает. Вы не можете взять случайные данные и осознать вопросы мироздания, глядя на табличку с числами. Вы должны соблюдать строгий план, чтобы получить более менее научные результаты:
1. постановка научной проблемы
2. обзор существующих решений
3. выбор метода исследования
4. сбор данных (далее всё идёт по выбранному методу)
5. подготовка к анализу (удаление выбросов, нормализация и т.п.)
6. анализ данных
7. интерпретация результатов
8. решение поставленной проблемы
9. сравнение с существующими решениями
10. выбор решения

Если же ваш опрос выглядит как "что-нибудь спросим, а потом графики сами всё расскажут", то вы можете смело интерпретировать результаты любым выгодным для вас способом, ибо случайный опрос даёт случайный результат.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Математика

Простой
Правильное ли док-во существования функции?
- 1 подписчик
- 10 нояб.
- 118 просмотров
1

ответ
Математика

Простой
Почему не используется простая таблица истинности?
- 1 подписчик
- 07 нояб.
- 112 просмотров
1

ответ
Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- 06 нояб.
- 40 просмотров
0

ответов
Математика

Простой
Как решается такое задание?
- 1 подписчик
- 02 нояб.
- 177 просмотров
2

ответа
Математика

Простой
Нужно ли это доказывать в обратную сторону?
- 1 подписчик
- 17 окт.
- 167 просмотров
1

ответ
Математика

+1 ещё

Простой
Хороший учебник/статья/книга по производным и началам матанализа?
- 2 подписчика
- 08 окт.
- 256 просмотров
2

ответа
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 160 просмотров
0

ответов
Аналитика

Простой
Где посмотреть примеры оформления кода для экономического анализа данных?
- 1 подписчик
- 11 сент.
- 238 просмотров
2

ответа
Математика

Средний
Какая функция y=f(x) может описывать подобный график с ассиметричным распределением?
- 1 подписчик
- 01 сент.
- 486 просмотров
2

ответа
Аналитика

+1 ещё

Простой
Какие есть эффективные средства анализа больших данных?
- 2 подписчика
- 20 авг.
- 192 просмотра
3

ответа
Показать ещё Загружается…

Стажер Аналитик

ПСБ цифровая лаборатория • Москва

от 30 000 до 60 000 ₽

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽

Аналитик-разработчик (команда Intelligent Search)

Сбер • Москва

от 250 000 до 400 000 ₽

Answer 1 · 2022-12-12 17:32:40

И что такого особенного в этой ситуации? Кто-то считает, что маршрут хороший, потому что одна конечная около дома, вторая около работы. Кто-то что маршрут плохой, потому что его остановки в середине маршрута и автобус всегда забит до упора. Ну и, при прочих равных, маршрут, которым ездит миллион человек в день будет в обоих рейтингах выше маршрута, которым ездит тысяча человек.
Пока не формализованы критерии отнесения в лучший/худший и данные не приведены к количеству перевозимых пассажиров, статистика бесполезна.

Answer 2 · 2022-12-12 17:58:38

Первое надо быть уверенными что дизайн опроса был составлен согласно математической статистике. Существует несколько направлений случайно выборки.
Например:
1. простая случайная выборка (каждый имеет равный шанс быть выбранным для участия в опросе)
2. случайная выборка где предварительно участники опроса были разбиты на группы например по возрасту, полу, и.т.п и веса в выборке становятся процентами размера группы от общего количества.
3. Кластерная например (это когда люди разбиты на группы и потом еще и группы выбираются случайно)
и т.д.
Если эксперимент не был организован как нужно то интерпретировать нечего.
Если я вас правильно понял то выборка была произведена через сайт Госуслуги.

Авторизация была через Госуслуги, поэтому исключаем вопрос накрутки и подтасовки для данной ситуации..

Я не считаю данную выборку репрезентативной (она лишь может служить одной из групп). Задаете вопрос на улице (одна группа) на Госуслугах (другая) может опрос по телефону кого нет на Госуслугах (третья).
Одна и целей статистики это делать выводы имея данные относительно малой группы участников эксперимента о большой. И что бы это осуществить выборка должна быть репрезентативной. В данном случае "большая" группа это люди зарегистрированные на Госуслугах жители Ставрополя а цель делать выводы о мнении Жителей города Ставрополя пользующихся общественным транспортом. То есть дизайн эксперимента построен не корректно и выводов делать нельзя.

Если я вас не правильно понял и дизайн эксперимента составлен корректно. Какие возможны выводы.
Самый очевидный 48 маршрут самый популярный (востребованный) 24% процента респондентов проголосовали за него (независимо от результата лучший или худший) то есть он самый востребованный это то место где должна быть проведена дополнительная работа.
По поводу гипотез да можно у вас есть дистрибуция данных т.е. все необходимые статистики для соответствующих тестов легко находятся из этих данных.
По поводу весов опять таки да при условии что респонденты были разбиты на группы.
Но это все актуально если дизайн эксперимента сделан корректно. По этому поводу я высказался вначале.

Answer 3 · 2022-12-13 00:01:52

Как лучше интерпретировать данную информацию со статистической точки зрения?

Никак, у вас же нет статистики, есть только две случайные величины. Максимум, что вы можете сделать, - это определить доверительную вероятность, которая отражает репрезентативность выборки. Должно быть, на глаз, не менее 1000 - 2000 участников.

Поэтому вам необходимо в первую очередь определиться, зачем вы вообще проводили этот опрос кроме как для отмывания денег. И какой отчёт хочет получить начальник.

Как правильно обработать статистику опроса о маршрутах транспорта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт