NodeJS Анализ больших текстовых файлов в utf-8

Question

kocherman @kocherman

NodeJS Анализ больших текстовых файлов в utf-8

Заранее извиняюсь за нубовский вопрос.
Столкнулся с новой для меня проблемой программируя под NodeJS (платформа имеет значение?). Предположим, есть большой файл, в котором содержится список строк, которые нужно прочесть и каждую проанализировать и сохранить. Файл имеет довольно большой объем, содержит кириллицу и хранится в кодировке UTF-8.
Для чтения такого файла, естественно, следует использовать бинарно-безопасный способ и анализировать информацию загружая ее по частям.
В nodejs я создаю буфер размером 32кб, читаю, разбиваю по строкам, анализирую, сохраняю. Все вроде работало бы нормально, но… подкрался незаметно. Спустя некоторое время я заметил артефакты в сохраненных результатах работы.
Я сразу понял в чем дело, но не знаю как решить элегантно такую задачу. Дело в том, что символы в кодировке utf-8 имеют разный размер в байтах. А чтение блоками с заданной длинной может «порвать» символ на стыке блоков. Понятное дело, в такой ситуации нужно откинуть последние байты полученной информации, а при чтении следующего блока их прочитать заного.

Вопрос как посчитать кол-во байт, которые нужно откинуть? Был бы хотябы си, php или java, где можно обратиться за помощью к iconv. В NodeJS то как быть… Из арсенала только функция преобразования буфера в строку

buffer.toString('utf8', 0, bytesRead);

Может быть, кто-нибудь сталкивался с такой проблемой?

Вопрос задан более трёх лет назад
4123 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Веб-разработчик

12 месяцев

Далее
Яндекс Практикум

Фронтенд-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

Простой
В цикле for много кнопок как сделать .addEventListener('click', к каждой кнопке?
- 1 подписчик
- 8 часов назад
- 92 просмотра
2

ответа
JavaScript

+2 ещё

Простой
Как получить события VK.VideoPlayer используя JS?
- 1 подписчик
- 11 нояб.
- 106 просмотров
1

ответ
Node.js

+1 ещё

Простой
Какие есть пакеты для генерации уникальных, числовых идентификаторов длиной 10 цифр?
- 1 подписчик
- 10 нояб.
- 242 просмотра
2

ответа
JavaScript

+1 ещё

Сложный
Почему зависает виджет в OBS?
- 1 подписчик
- 10 нояб.
- 149 просмотров
0

ответов
JavaScript

Простой
Смещение группы в fabric.js?
- 1 подписчик
- 06 нояб.
- 128 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 205 просмотров
0

ответов
JavaScript

Простой
Как создать рисунок из PHP в Fabric.js?
- 2 подписчика
- 28 окт.
- 170 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Какой скрипт загружает меню в Ютуб?
- 2 подписчика
- 27 окт.
- 289 просмотров
2

ответа
Node.js

+1 ещё

Простой
Перевод бэкенда с PHP на NodeJs?
- 1 подписчик
- 26 окт.
- 420 просмотров
3

ответа
JavaScript

Простой
Как работать с разрозненными данными?
- 1 подписчик
- 21 окт.
- 252 просмотра
2

ответа
Показать ещё Загружается…

Fullstack Разработчик (Next.js / JavaScript / TypeScript)

App Company

от 200 000 до 300 000 ₽

Web-разработчик/WordPress программист (Full-stack)

JustBusiness • Санкт-Петербург

от 130 000 до 150 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 50 000 до 90 000 ₽

Answer 1 · 2012-01-30 11:34:42

ru.wikipedia.org/wiki/UTF-8 — там есть табличка, по первому байту символа можно понять сколько байтов он содержит.
И всё проще, если там только латиница и кириллица

NodeJS Анализ больших текстовых файлов в utf-8

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт