• Как обработать дамп википедии Wikipedia Extractor-ом?

    sheknitrtch
    @sheknitrtch
    Wikipedia extractor - это Python скрипт, который на входе получает XML дампа базы данных Wikipedia, а на выходе - текст. То есть должен быть установлен Python. Чтобы скормить этому скрипту базу данных, её нужно предварительно извлечь из BZ2 архива. Но распакованный файл будет занимать очень много места. Поэтому разработчики рекомендуют делать распаковку на лету, не сохраняя данные на винчестере. В Linux для этого есть утилита bzip2. Под Windows можно использовать консольный 7-zip. Команда будет следующая
    7z.exe  e -so DUMP.bz2 | python WikiExtractor.py -cb 250K -o extracted

    Всё, что идёт до символа '|' - это команда распаковки. А после - это команда запуска Wikipedia Extractor-а с какими-то параметрами.
    Я не проверял, работает ли такой способ, так как у меня нет дампа Wiki.
    Ответ написан
    1 комментарий