Как проверить вхождение строки в большой csv файл?
Есть csv файл общим весом 50мб+ и есть список ключей(список строк). Необходимо с наименьшими затратами определить вхождение каждого ключа в csv. При этом csv находится на удаленном сервере(github) и регулярно обновляется.
Пример:
Есть ключ "О. Генри". Необходимо определить, есть ли хотя бы одно вхождение этого ключа в csv-файле.
дата находится в одном источнике, в единственном экземпляре. И доступа к мозгам владельца нет, чтобы выковырять оттуда csv. А каждый раз загружать, парсить, заносить в БД, через которую потом искать - думаю, идея не из лучших.
Возможно кому-то поможет:
Пока нашел один вариант - парсинг в потоке с помощью scramjet. Работает не молниеносно, но с текущим размером файлов - довольно сносно, при около сотни ключей и ~50мб csv баз обработка заняла меньше минуты.