Как обработать дамп википедии Wikipedia Extractor-ом?

Нужно обработать дамп wikipedia данным инструментом. По описаниям на сайте Wikipedia Extractor не понял, как это делается в Windows.
  • Вопрос задан
  • 3777 просмотров
Решения вопроса 1
sheknitrtch
@sheknitrtch
Wikipedia extractor - это Python скрипт, который на входе получает XML дампа базы данных Wikipedia, а на выходе - текст. То есть должен быть установлен Python. Чтобы скормить этому скрипту базу данных, её нужно предварительно извлечь из BZ2 архива. Но распакованный файл будет занимать очень много места. Поэтому разработчики рекомендуют делать распаковку на лету, не сохраняя данные на винчестере. В Linux для этого есть утилита bzip2. Под Windows можно использовать консольный 7-zip. Команда будет следующая
7z.exe  e -so DUMP.bz2 | python WikiExtractor.py -cb 250K -o extracted

Всё, что идёт до символа '|' - это команда распаковки. А после - это команда запуска Wikipedia Extractor-а с какими-то параметрами.
Я не проверял, работает ли такой способ, так как у меня нет дампа Wiki.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
Может уберете лишние вопросы?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы