Все сервисы Хабра
Сообщество IT-специалистов
Ответы на любые вопросы об IT
Профессиональное развитие в IT
Закрыть
Задать вопрос
Svoboo
@Svoboo
Аналитика
Как отобрать наиболее часто встречаемые строки в файле?
Есть файл порядка 10кк строк, требуется выбрать топ-50 строк, которые встречаются наиболее часто. На чем такое проще реализовать и как?
Вопрос задан
более трёх лет назад
203 просмотра
7
комментариев
Подписаться
1
Оценить
7
комментариев
Facebook
Вконтакте
Twitter
Сергей
@sergeyvidioreg
Файл в каком виде? Формат?
Написано
более трёх лет назад
Svoboo
@Svoboo
Автор вопроса
txt
Написано
более трёх лет назад
Сергей
@sergeyvidioreg
1. Копируете в exel
2. Стили- Условное форматирование- Правила выделения ячеек - Повторяющиеся значения (выделяете цветом)
3. Копируете все во второй столбец и удаляете дубликаты
Написано
более трёх лет назад
Svoboo
@Svoboo
Автор вопроса
Сергей
: Браво! 10 миллионов строк?:)
Написано
более трёх лет назад
Сергей
@sergeyvidioreg
Svoboo
: сорян,не обратил внимание на "кк"
Написано
более трёх лет назад
Николай Глушков
@nick-analyst
Попробуйте r или python
Написано
более трёх лет назад
Svoboo
@Svoboo
Автор вопроса
Николай Глушков
: можно еще попробовать php или c++
Написано
более трёх лет назад
Решения вопроса
0
Пригласить эксперта
Ответы на вопрос
1
xSkyFoXx
@xSkyFoXx
Открываете любой скриптовый язык, который знаете.
Делаете элементарный препроцессинг: всё приводите к нижнему регистру, убираете знаки препинания и т.п.
Разбиваете всё на пары ключ: значение ("слово": 1, "другое": 1).
Группируете по ключу. Функция группировки значений - сумма.
Ответ написан
более трёх лет назад
Комментировать
Нравится
Комментировать
Facebook
Вконтакте
Twitter
Ваш ответ на вопрос
Войдите, чтобы написать ответ
Войти через центр авторизации
Похожие вопросы
Аналитика
Простой
Какие сейчас используются качественные программы для pairwise?
1 подписчик
04 мая
38 просмотров
1
ответ
Аналитика
+1 ещё
Простой
Если ли более изящный способ вычисления суммы максимальных значений за день в ретроспективе 1 месяц?
5 подписчиков
21 мар.
2224 просмотра
2
ответа
Аналитика
+1 ещё
Средний
Как построить объясняющую модель временного ряда?
2 подписчика
08 февр.
166 просмотров
0
ответов
Аналитика
Простой
Какой самый мощный сервис статистики для сайта?
1 подписчик
07 янв.
140 просмотров
2
ответа
Базы данных
+1 ещё
Средний
Есть ли аналог Power bi desktop на mac?
2 подписчика
05 янв.
524 просмотра
2
ответа
IT-образование
+2 ещё
Простой
Какой курс лучше для начала работы бизнес-аналитиком?
3 подписчика
24 дек. 2024
2556 просмотров
5
ответов
Поисковая оптимизация
+4 ещё
Простой
Key Collector работает только на ОС Windows, какой аналог вы порекомендуете для работы на Мас?
1 подписчик
19 сент. 2024
303 просмотра
4
ответа
Аналитика
Простой
Sentry. Как верно настроить отслеживание работы приложения в mac os?
1 подписчик
14 сент. 2024
49 просмотров
0
ответов
Chrome
+2 ещё
Простой
Какие есть способы для google chrome исключить возможность записи экрана условными яндекс-вебвизорами на сайтах при моем посещении таких сайтов?
1 подписчик
04 сент. 2024
319 просмотров
1
ответ
Аналитика
+1 ещё
Простой
Что такое SQdoc и есть ли обучающий контент?
1 подписчик
22 авг. 2024
97 просмотров
1
ответ
Показать ещё
Загружается…
Вакансии с Хабр Карьеры
Аналитика SAP на модуль FI-АА
Utair IT
До 200 000 ₽
Инженер-технолог (электромонтаж и сборка)
ГК «Турбулентность-ДОН»
•
Ростов-на-Дону
от 100 000 ₽
Fullstack аналитик IT
Wanted.
•
Москва
До 300 000 ₽
Минуточку внимания
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
Войти через центр авторизации
Закрыть
Реклама