Все сервисы Хабра
Сообщество IT-специалистов
Ответы на любые вопросы об IT
Профессиональное развитие в IT
Закрыть
Задать вопрос
Svoboo
@Svoboo
Аналитика
Как отобрать наиболее часто встречаемые строки в файле?
Есть файл порядка 10кк строк, требуется выбрать топ-50 строк, которые встречаются наиболее часто. На чем такое проще реализовать и как?
Вопрос задан
более трёх лет назад
203 просмотра
7
комментариев
Подписаться
1
Оценить
7
комментариев
Facebook
Вконтакте
Twitter
Сергей
@sergeyvidioreg
Файл в каком виде? Формат?
Написано
более трёх лет назад
Svoboo
@Svoboo
Автор вопроса
txt
Написано
более трёх лет назад
Сергей
@sergeyvidioreg
1. Копируете в exel
2. Стили- Условное форматирование- Правила выделения ячеек - Повторяющиеся значения (выделяете цветом)
3. Копируете все во второй столбец и удаляете дубликаты
Написано
более трёх лет назад
Svoboo
@Svoboo
Автор вопроса
Сергей
: Браво! 10 миллионов строк?:)
Написано
более трёх лет назад
Сергей
@sergeyvidioreg
Svoboo
: сорян,не обратил внимание на "кк"
Написано
более трёх лет назад
Николай Глушков
@nick-analyst
Попробуйте r или python
Написано
более трёх лет назад
Svoboo
@Svoboo
Автор вопроса
Николай Глушков
: можно еще попробовать php или c++
Написано
более трёх лет назад
Решения вопроса
0
Пригласить эксперта
Ответы на вопрос
1
xSkyFoXx
@xSkyFoXx
Открываете любой скриптовый язык, который знаете.
Делаете элементарный препроцессинг: всё приводите к нижнему регистру, убираете знаки препинания и т.п.
Разбиваете всё на пары ключ: значение ("слово": 1, "другое": 1).
Группируете по ключу. Функция группировки значений - сумма.
Ответ написан
более трёх лет назад
Комментировать
Нравится
Комментировать
Facebook
Вконтакте
Twitter
Ваш ответ на вопрос
Войдите, чтобы написать ответ
Войти через центр авторизации
Похожие вопросы
Аналитика
+1 ещё
Простой
Если ли более изящный способ вычисления суммы максимальных значений за день в ретроспективе 1 месяц?
5 подписчиков
21 мар.
2194 просмотра
2
ответа
Аналитика
+1 ещё
Средний
Как построить объясняющую модель временного ряда?
2 подписчика
08 февр.
144 просмотра
0
ответов
Аналитика
Простой
Какой самый мощный сервис статистики для сайта?
1 подписчик
07 янв.
133 просмотра
2
ответа
Базы данных
+1 ещё
Средний
Есть ли аналог Power bi desktop на mac?
2 подписчика
05 янв.
410 просмотров
2
ответа
IT-образование
+2 ещё
Простой
Какой курс лучше для начала работы бизнес-аналитиком?
3 подписчика
24 дек. 2024
1957 просмотров
5
ответов
Поисковая оптимизация
+4 ещё
Простой
Key Collector работает только на ОС Windows, какой аналог вы порекомендуете для работы на Мас?
1 подписчик
19 сент. 2024
284 просмотра
4
ответа
Аналитика
Простой
Sentry. Как верно настроить отслеживание работы приложения в mac os?
1 подписчик
14 сент. 2024
47 просмотров
0
ответов
Chrome
+2 ещё
Простой
Какие есть способы для google chrome исключить возможность записи экрана условными яндекс-вебвизорами на сайтах при моем посещении таких сайтов?
1 подписчик
04 сент. 2024
312 просмотров
1
ответ
Аналитика
+1 ещё
Простой
Что такое SQdoc и есть ли обучающий контент?
1 подписчик
22 авг. 2024
92 просмотра
1
ответ
IT-образование
+2 ещё
Простой
Как стартовать в аналитике «гуманитарию»?
2 подписчика
07 авг. 2024
799 просмотров
3
ответа
Показать ещё
Загружается…
Вакансии с Хабр Карьеры
Business Analyst
Freuders
от 3 500 $
Аналитик 1С ERP (регламентированный учет)
Мечел-ИнфоТех
от 190 000 ₽
Бизнес\системный аналитик
Quickly Search
До 300 000 ₽
Минуточку внимания
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
Войти через центр авторизации
Закрыть
Реклама