Как сконвертировать в utf 8 большой текстовый файл?
Есть 40 гигов текстового файла (был получен путем парсинга сайтов). Естественно в файле кодировок вагон и тележка. Подскажите пожалуйста как это все добро конвертнуть в utf 8 ?
P.S. в файле куча разных кодировок.
Printip: конечно правильный. Потому что теперь вам эту гору добра надо дружно конвертировать в разные кодировки, искать теги и смотреть какой стал язык, копировать в новый файлик. Как минимум это займет кучу времени и места.
Из адекватных решений вижу: разбить файл на каждую страницу. Пробовать конвертировать каждую отдельно, вычлинять текущую кодировку и конвертировать. Опционально потом обратно все склеить.
Сомневаюсь что есть способ конвертировать файл в одну кодировку, когда разные его части имеют разную кодировку.
И вообще, зачем понадобилось складывать всё в один файл?
Не легче ли было записывать полученные данные в базу, ато файл на 40Гб...