Доброго времени,
интересует следующий вопрос: где можно найти открытые данные по различным событиям истории, таким как самые крупные войны, самые значительные эпидемии и пр.? Я занимаюсь методиками прогнозирования будущего, кое-что получается, но нужно как можно больше данных для статистики. Можно в любом виде, хоть web-страничка, я ее распарсю.
Подозреваю, что централизованной базы в открытом доступе нет, но может кто-то знает где найти хотя бы часть? Пока я смог найти лишь крохи, например, на википедии — список самых крупных эпидемий, список самых разрушительных землетрясений и пр. Мало, очень мало.
Уточню ряд моментов:
0. Мы говорим о всей планете, не привязываясь только к России.
1. Период истории — чем больше, тем лучше, но наибольший интерес вызывают последние пара веков.
2. Род событий — опять же, любые значимые с точки зрения самого человечества, как негативные (войны, все виды катаклизмов, техногенные катастрофы, экономические кризисы, политические кризисы, революции), так и позитивные (открытия, изменившие мир, окончание войн и конфликтов и пр.). Главное, чтобы данные были разделены по группам событий.
3. По возможности нужны метрики, чтобы отсортировать событий по важности, что даст возможность сделать несколько уровней детализации (10 войн с наибольшим числом потерь, 20 войн, 30 войн...). Да, для открытий в науке или зарождения общественных течений это уже не сработает.
Где найти в виде базы не знаю. Но в вики ru.wikipedia.org/wiki/1792 по каждому году есть хорошее описание. В английской версии данные великолепно структурированы, и их можно парсить автоматически. С помощью поиска ключевых слов — я думаю сможете сделать подобную базу в драфте.
Думаю, если внимательно посмотреть и составить хороший список коэффициентов ключевых слов — то сможете и важность событий сделать. Можете еще использовать индекс цитирования событий в поисковых системах.
Короче — это с вики вытянуть вполне реально. Если нужны конкретные советы — пишите.
Спасибо!
У меня пока только один вопрос: насколько вики можно считать объективным источником информации? Да, там есть ссылки, но я пока так и не понял, по какому принципу делаются рейтинги. Например, статья про какое-то заболевание, перечисляется десяток его крупных вспышек — автор взял историческую энциклопедию, составил список самых крупных, отсортировал, и взял первые 10? Вряд ли, скорее всего «что попалось на глаза». То есть для ознакомления эти данные хороши, но при написании научного труда ссылаться на вики я наверно не должен)
У меня пока только один вопрос: насколько вики можно считать объективным источником информации? — нет
Я не понял что именно Вы хотите. Максимально заполненную или максимально точную базу — можно либо одно либо другое. Либо по середине. Если вам нужна точность — анализируйте каждое событие вручную. Если заполненность — то тогда автоматом можно заполнить и сделать примерную оценку важности события. По поводу точности — это к историкам. Я могу подсказать как сделать заполненность с приемлемой точностью. Я не мало раз делал подобные анализаторы данных, но я ни разу не историк, и уж тем более не имею понятия по каким критериям составлена та или иная статья вики.
Раскажите зачем конкретно Вам это нужно. Если заинтересует меня — помогу с кодом, и напишем совместную статью о датамайнинге (если опять карму не сольют)