Все сервисы Хабра
Сообщество IT-специалистов
Ответы на любые вопросы об IT
Профессиональное развитие в IT
Закрыть
Задать вопрос
Chvalov
@Chvalov
Автоматизация обработки текста
Как разбить текстовый файл объемом в 100гб по 2гб и удалить дубликаты строк?
Есть текстовый файл объем которого 100ГБ
как его разбить на более мелкие части и удалить дубликаты строк.
Желательно с приоритетом на скорость
Вопрос задан
более трёх лет назад
296 просмотров
Комментировать
Подписаться
1
Оценить
Комментировать
Facebook
Вконтакте
Twitter
Решения вопроса
0
Пригласить эксперта
Ответы на вопрос
1
mamkaololosha
@mamkaololosha
тестовое задание в какую-нибудь школу хайлоада? А потом у нас ракеты падают и курски тонут.
unix.stackexchange.com/questions/19641/how-to-remo...
или внешняя сортировка
Ответ написан
более трёх лет назад
1
комментарий
Нравится
2
1
комментарий
Facebook
Вконтакте
Twitter
Chvalov
@Chvalov
Автор вопроса
mamkaololosha
Почитал забугорные форумы говорят что awk '!seen[$0]++' filename
Будет по быстрее, но я так понял он берет файл и с ним работает перезаписывает.
Можно ли задать так чтобы он отдельно сделал файл, приэтом оригинал оставил целым ?
Написано
более трёх лет назад
Ваш ответ на вопрос
Войдите, чтобы написать ответ
Войти через центр авторизации
Похожие вопросы
HTML
+2 ещё
Простой
Как выполнить ëфикацию без сторонних библиотек?
2 подписчика
28 февр.
677 просмотров
2
ответа
Автоматизация обработки текста
Простой
Какой код вбить, чтобы он склонял определëнное слово да ещë и повсеместно на странице/сайте?
2 подписчика
19 февр.
72 просмотра
2
ответа
Нейронные сети
+1 ещё
Средний
Как определить ключевые слова из текста?
1 подписчик
09 янв.
71 просмотр
2
ответа
Поисковая оптимизация
+4 ещё
Средний
Как заполнить таблицу excel?
1 подписчик
15 июл. 2024
208 просмотров
4
ответа
Автоматизация обработки текста
Простой
Динамическая + стачическая сортировка одновременно возможна?
1 подписчик
23 июн. 2024
60 просмотров
0
ответов
Регулярные выражения
+2 ещё
Простой
Как обрезать часть строки в Excel (Пример прикрепляю)?
2 подписчика
29 мая 2024
149 просмотров
2
ответа
Python
+3 ещё
Средний
Какие существуют библиотеки Python для комплексной обработки текста, включая исправление ошибок и удаление лишних символов?
1 подписчик
01 апр. 2024
398 просмотров
1
ответ
Автоматизация обработки текста
+1 ещё
Сложный
Кто знает user-friendly инструмент для поиска по файлам с помощью языковых моделей (RAG)?
4 подписчика
более года назад
225 просмотров
2
ответа
Автоматизация обработки текста
Простой
Как автоматизировать заполнение бланка docx, меняя лишь часть текста?
1 подписчик
более года назад
46 просмотров
2
ответа
Автоматизация обработки текста
Простой
Как быстро менять ссылки Django?
1 подписчик
более года назад
37 просмотров
1
ответ
Показать ещё
Загружается…
Вакансии с Хабр Карьеры
Intern It-recruiter
Wanted.
от 60 000 до 120 000 ₽
Intern It-recruiter
Wanted.
•
Санкт-Петербург
До 120 000 ₽
Стажер в отдел IT-рекрутинга
Wanted.
•
Санкт-Петербург
от 80 000 до 150 000 ₽
Минуточку внимания
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
Войти через центр авторизации
Закрыть
Реклама