Здравствуйте!
Имеется база новостного сайта ~за 20 лет с заголовками, текстами и датой под каждой в формате csv. Объемом это где-то гигабайт.
Собственно хотел бы это как-то обработать, но не знаю как. С консолью знаком только по скачиванию архивов с гитхаба, так что дело тяжкое.
Кто-нибудь делал что-то подобное в R (выбрал его потому что имеет хоть какой-то интерфейс и более-менее бодро работает с данными на ~700к строк), возможно подскажет последовательность действий?
Возможно существуют приложения, в которых этот вопрос можно было бы решить с меньшей кровью?
Видел так же
topicminer от вышки, но он отказывается обрабатывать csv и хочет, чтобы ему скормили данные в тхт по каждому документу отдельно, что невозможно в моей ситуации.