Все сервисы Хабра
Сообщество IT-специалистов
Ответы на любые вопросы об IT
Профессиональное развитие в IT
Закрыть
Задать вопрос
Svoboo
@Svoboo
Аналитика
Как отобрать наиболее часто встречаемые строки в файле?
Есть файл порядка 10кк строк, требуется выбрать топ-50 строк, которые встречаются наиболее часто. На чем такое проще реализовать и как?
Вопрос задан
более трёх лет назад
203 просмотра
7
комментариев
Подписаться
1
Оценить
7
комментариев
Facebook
Вконтакте
Twitter
Сергей
@sergeyvidioreg
Файл в каком виде? Формат?
Написано
более трёх лет назад
Svoboo
@Svoboo
Автор вопроса
txt
Написано
более трёх лет назад
Сергей
@sergeyvidioreg
1. Копируете в exel
2. Стили- Условное форматирование- Правила выделения ячеек - Повторяющиеся значения (выделяете цветом)
3. Копируете все во второй столбец и удаляете дубликаты
Написано
более трёх лет назад
Svoboo
@Svoboo
Автор вопроса
Сергей
: Браво! 10 миллионов строк?:)
Написано
более трёх лет назад
Сергей
@sergeyvidioreg
Svoboo
: сорян,не обратил внимание на "кк"
Написано
более трёх лет назад
Николай Глушков
@nick-analyst
Попробуйте r или python
Написано
более трёх лет назад
Svoboo
@Svoboo
Автор вопроса
Николай Глушков
: можно еще попробовать php или c++
Написано
более трёх лет назад
Решения вопроса
0
Пригласить эксперта
Ответы на вопрос
1
xSkyFoXx
@xSkyFoXx
Открываете любой скриптовый язык, который знаете.
Делаете элементарный препроцессинг: всё приводите к нижнему регистру, убираете знаки препинания и т.п.
Разбиваете всё на пары ключ: значение ("слово": 1, "другое": 1).
Группируете по ключу. Функция группировки значений - сумма.
Ответ написан
более трёх лет назад
Комментировать
Нравится
Комментировать
Facebook
Вконтакте
Twitter
Ваш ответ на вопрос
Войдите, чтобы написать ответ
Войти через центр авторизации
Похожие вопросы
Аналитика
Простой
Где посмотреть примеры оформления кода для экономического анализа данных?
1 подписчик
11 сент.
202 просмотра
2
ответа
Аналитика
+1 ещё
Простой
Какие есть эффективные средства анализа больших данных?
1 подписчик
20 авг.
156 просмотров
3
ответа
Алгоритмы
+1 ещё
Средний
Как можно предиктить дату регистрации при массиве данных?
1 подписчик
03 июл.
168 просмотров
1
ответ
Аналитика
+1 ещё
Средний
Как быстро локализовать в логах источник изменений метрики?
1 подписчик
30 июн.
93 просмотра
0
ответов
Математика
+3 ещё
Средний
Как выбрать размеры интервалов для неравно интервального вариационного ряда?
1 подписчик
24 июн.
152 просмотра
2
ответа
Аналитика
Простой
Какие сейчас используются качественные программы для pairwise?
2 подписчика
04 мая
60 просмотров
2
ответа
Аналитика
+1 ещё
Простой
Если ли более изящный способ вычисления суммы максимальных значений за день в ретроспективе 1 месяц?
5 подписчиков
21 мар.
2251 просмотр
2
ответа
Аналитика
+1 ещё
Средний
Как построить объясняющую модель временного ряда?
2 подписчика
08 февр.
178 просмотров
0
ответов
Аналитика
Простой
Какой самый мощный сервис статистики для сайта?
1 подписчик
07 янв.
147 просмотров
2
ответа
Базы данных
+1 ещё
Средний
Есть ли аналог Power bi desktop на mac?
2 подписчика
05 янв.
674 просмотра
3
ответа
Показать ещё
Загружается…
Вакансии с Хабр Карьеры
Product/marketing analyst
Windy.app
от 70 000 до 150 000 ₽
Middle/Senior Data Scientist (команда ИИ и аналитика)
Сбер
•
Москва
от 200 000 до 350 000 ₽
Системный аналитик 1С
Kokoc Group
До 230 000 ₽
Минуточку внимания
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
Войти через центр авторизации
Закрыть
Реклама