Как собрать информацию о турах с нескольких операторов в свою БД?

Question

dake1231 @dake1231

Как собрать информацию о турах с нескольких операторов в свою БД?

Здравствуйте! Стоит задача - разработать подбор туров, которая отображает туры соответствующие параметрам с нескольких туроператоров. Список операторов есть, некоторые дают API некоторые нет.
Я посмотрел похожие вопросы в тостере и понял что нужно парсить данные с сайта этих операторов и класть в БД. Допустим это будет каждый день в 2:00.

В связи с этим у меня возникли вопросы:

Какие инструменты стоит использовать в парсинге. Пока думаю Xpath или вот этот вариант
Как вообще эти данные собираются, в каком виде и как их расположить что бы можно было осуществить поиск у себя. Например входные параметры могут быть разные, допустим: 1 взрослый и 1 ребенок или 2 взрослых и 2 ребенка и тд. Вообще понятия не имею и рассуждать не берусь, но как вариант предполагаю что берется максимальное количество свободных мест и кладется в бд. или каждый вариант рассматривается отдельно.
Пользователи ilBEastli , ThePretender , advertise решали эти задачи, хотелось бы Ваши примеры рассмотреть или задать вопросы в skype например

Всем спасибо за ответы!

Вопрос задан более трёх лет назад
2380 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как декодировать/закодировать спец символы в get запросе?
- 1 подписчик
- 12 часов назад
- 87 просмотров
1

ответ
PHP

Простой
Как вызвать curl и не ждать ответ?
- 1 подписчик
- 16 дек.
- 276 просмотров
2

ответа
PHP

Простой
Как сделать это?
- 1 подписчик
- 11 дек.
- 285 просмотров
2

ответа
Компьютерные сети

+1 ещё

Средний
Центр СПб, как подключиться к скоростному интернету и улучшить связь?
- 2 подписчика
- 10 дек.
- 490 просмотров
7

ответов
Компьютерные сети

+3 ещё

Простой
Mikrotik настройка Vlan маршрутизации?
- 1 подписчик
- 07 дек.
- 452 просмотра
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 240 просмотров
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 227 просмотров
1

ответ
Telegram

+3 ещё

Простой
Какое API можно использовать для просмотра фильмов в тг боте?
- 1 подписчик
- 04 дек.
- 272 просмотра
0

ответов
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 176 просмотров
0

ответов
API

Средний
Не работает api 3x-ui?
- 2 подписчика
- 03 дек.
- 189 просмотров
0

ответов
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

TeamLead PHP (Symfony)

AGIMA • Москва

от 210 000 ₽

Answer 1 · 2014-11-27 20:02:05

Могу ответить на первый вопрос: никогда не полагайтесь на то, что вам дадут страничку с валидным HTML. Мы юзали для выдирания инфы обычный regexp. Долго и медленно, но зато надёжно. Возможно, для PHP есть библа, которая может построить частичный DOM по невалидному HTML. Для .NET такая библа есть, это более предпочтительный вариант.

По поводу формата хранения есть несколько направлений для размышления:
1. Загуглите стандарты представления информации в туристической отрасли. Полезно для того, чтобы форматировать мозг под эту отрасль, но, по факту, эти стандарты у нас никто не поддерживает.
2. Проанализируйте структуру данных тех операторов, которых вы выбрали. Выделить общую структуру будет несложно.
3. Сразу подумайте о том, по каким параметрам вы будете искать данные. Это ваша основная фича, поэтому ей нужно уделить наибольшее внимание. Подумайте о технологии хранения данных: SQL, NoSQL, гибридное решение (например, в SQL хранятся нормализованные исходные данные, а в NoSQL генерятся денормализованные вьюхи, заточенные под быстрый поиск).

Более подробно на эту тему я ничего сказать не могу, т. к. не работаю в этой отрасли уже 5 лет. За это время появилась куча новых технологий, и подход к хранению данных может быть совершенно другим.

Answer 2 · 2014-11-27 22:02:58

1. Парсинг: datacol
2. Хранение: деревья на основе ID: id, parent_id, param1,....,paramN
Про детей и взрослых - комбинаторика.
Биты данных: 0 - ребёнок, 1 - взрослый, 00-11 - кол-во от 0 до 3.
Тогда:
000000 - мест нет
000001 - 1 ребенок
000101 - 1 взрослый
101001 - 1 взрослый и 1 ребёнок
110001 - 2 взрослых и 1 ребёнок
110010 - 2 взрослых и 2 ребёнка
111011 - 3 взрослых и 3 ребёнка
При фиксированном порядке следования данных можно избавиться от 2-х лишних битов.

Answer 3 · 2014-11-28 01:04:30

Пума Тайланд @opium

Просто люблю качественно работать

1)Лучше без всяких инструментов обычной регуляркой.
2)Каждый отдельно
3)Не решали.

Ответ написан более трёх лет назад

Комментировать

Как собрать информацию о турах с нескольких операторов в свою БД?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт