Правильно я планирую развернуть сеть из серверов?

Question

nevesomostjke @nevesomostjke

Правильно я планирую развернуть сеть из серверов?

Здравствуйте.
Есть скрипт, на PHP, который парсит данные 9 различных сайтов. Далее заносит полученные данные в базу SQLite. А затем пользователь открывает сайт и смотрит данные из базы.
Есть возможность скрипт разбить на части, скажем на 3 скрипта, чтобы он парсил по 3 сайта каждый. Среднее выполнения скрипта на одном сервере когда он парсит разом 9 сайтов ~4.1 секунды. Для меня это долго. Справочно: данные которые подругражаются с сайтов не более 1мб. В сумме 9мб максимум.
Итак.
Есть 5 серверов под управлением Windows Server. Названия условные.
s1
s2
s3
main
database

Они соединены в локальную сеть между собой и каждый имеет публичный IP.
Моя идея следующая:
Скрипт парсинга разбить на части. Тоесть, s1 будет получать данные с трех сайтов s2 с трех сайтов и s3 соответственно с трех сайтов.
Полученные данные они будут заносить в базу SQLite на сервер database.
А сервер main, где собственно и размещен сайт, уже получать данные с сервера database и выдавать пользователю.

Теперь вопрос.
Какое ваше мнение касательно данной идеи? Бред?
Может нет смысла заморачиваться из за 9мб, и использовать какую-то потоковую загрузку на одном сервере? Если да, что можете порекомендовать?

Вопрос задан более трёх лет назад
592 просмотра

10 комментариев

Подписаться 3 Простой 10 комментариев

Ипатьев @ipatiev Куратор тега PHP

на редкость невнятный вопрос. какой-то виндоус на коленке. sqlite. При чем здесь windows server? При чем здесь "сеть хранения данных"? это файлик с мегабайтом натасканных с интернета циферок?
А, главное - если есть возможность, то что мешает взять да попробовать?

Написано более трёх лет назад
nevesomostjke @nevesomostjke Автор вопроса

Роман Юрьевич Ипатьев, Теперь вопрос.
Какое ваше мнение касательно данной идеи? Бред?
Может нет смысла заморачиваться из за 9мб, и использовать какую-то потоковую загрузку на одном сервере? Если да, что можете порекомендовать?

Написано более трёх лет назад
Ипатьев @ipatiev Куратор тега PHP

мне кажется, я этот абзац уже читал
но кстати да, "потоковая загрузка" - это явно ещё один термин, смысл которого вы тоже, судя по всему, не понимаете.

Написано более трёх лет назад
nevesomostjke @nevesomostjke Автор вопроса

Роман Юрьевич Ипатьев, ну простите меня. Я ученик. Мне всего-лишь нужна помощь, поэтому я и здесь. Попробовать то можно, но это займет для меня не мало времени. Может есть пути решения моей задачи намного быстрее.

Касательно тегов к вопросу.
Давайте проще. Поставлю вопрос по другому. Мне надо очень быстро загрузить на сервер с 9 разных сайтов JSON массивы каждый из которых весит 1 мб.
Я работаю с PHP, а на моих серверах стоит Windows Server и мне предпочтительно использовать SQLite так как фреймворк сайта работает с ним.

Написано более трёх лет назад
Ипатьев @ipatiev Куратор тега PHP

А в серверах стоят процессоры. и оперативная память. И жесткий диск. Что ж вы все эти важные теги не добавили до кучи?

Написано более трёх лет назад
nevesomostjke @nevesomostjke Автор вопроса

Роман Юрьевич Ипатьев, я уже попросил прощения, перед вами, за то что, эти мерзкие теги так вас раздражают.
А на ваш взгляд, какие теги нужно было указать? На будущее, подскажите, пожалуйста.

Написано более трёх лет назад
Александр @AleksandrB

Вот читаю и не могу понять на кой черт тут разные сервера? В чем проблема разбить выполнение на треды и пустить хоть 1000 независимых скриптов на одном сервере?

Написано более трёх лет назад
nevesomostjke @nevesomostjke Автор вопроса

Александр, разбить выполнение на треды
расшифруйте пожалуйста:))

Написано более трёх лет назад
Александр @AleksandrB

nevesomostjke, что такое тренды - гугл. У пхп нет своей реализации многопоточности, как делаем мы: команда 1 создает треды, пишет в бд. Вторая команда принимает на вход номер треда и постоянно смотрит в бд что бы узнать появились ли записи для этого треда. Последняя команда висит в супервизоре (он запускает ее в столько потоков во сколько нужно). Реализаций тредов куча, интернеты в помош.

Написано более трёх лет назад
Дмитрий Свиридов @dimuska139

Среднее выполнения скрипта на одном сервере когда он парсит разом 9 сайтов ~4.1 секунды.

Возьмите что-нибудь асинхронное

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

4 комментария

nevesomostjke @nevesomostjke Автор вопроса

Могу использовать MySQL

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev

nevesomostjke, в такой схеме лучше использовать MySQL. Необходимость такой схемы - вопрос отдельный. Вы профилировали выполнение скрипта, определяли узкие места? Откуда уверенность, что нужно разность его по разным хостам?

Написано более трёх лет назад
nevesomostjke @nevesomostjke Автор вопроса

Сергей Горностаев, нет уверенности. Поэтому и задал вопрос. Стоит ли так делать.
Просто данные для одного сайта я получаю в среднем за ~0.4 секунды, интернет очень быстрый. Это время выполнения всего скрипта с моими там функциями всякими на PHP. Разборы JSON массивов и так далее...
А когда разом получаешь данные с 9 сайтов, то время выполнения в среднем ~4.1

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev

nevesomostjke, любые оптимизации надо начинать с измерений. А то ваша схема может работать ещё медленнее, чем схема с одним хостом.

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 138 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 256 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 249 просмотров
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 131 просмотр
1

ответ
Windows Server

+3 ещё

Простой
Как понять из-за чего проблема с файловой системой NTFS на виртуальном диске vhdx?
- 3 подписчика
- 25 окт.
- 146 просмотров
0

ответов
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 294 просмотра
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 338 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 290 просмотров
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 278 просмотров
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 278 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

на редкость невнятный вопрос. какой-то виндоус на коленке. sqlite. При чем здесь windows server? При чем здесь "сеть хранения данных"? это файлик с мегабайтом натасканных с интернета циферок?
А, главное - если есть возможность, то что мешает взять да попробовать?
Роман Юрьевич Ипатьев, Теперь вопрос.
Какое ваше мнение касательно данной идеи? Бред?
Может нет смысла заморачиваться из за 9мб, и использовать какую-то потоковую загрузку на одном сервере? Если да, что можете порекомендовать?
мне кажется, я этот абзац уже читал
но кстати да, "потоковая загрузка" - это явно ещё один термин, смысл которого вы тоже, судя по всему, не понимаете.
Роман Юрьевич Ипатьев, ну простите меня. Я ученик. Мне всего-лишь нужна помощь, поэтому я и здесь. Попробовать то можно, но это займет для меня не мало времени. Может есть пути решения моей задачи намного быстрее.

Касательно тегов к вопросу.
Давайте проще. Поставлю вопрос по другому. Мне надо очень быстро загрузить на сервер с 9 разных сайтов JSON массивы каждый из которых весит 1 мб.
Я работаю с PHP, а на моих серверах стоит Windows Server и мне предпочтительно использовать SQLite так как фреймворк сайта работает с ним.
А в серверах стоят процессоры. и оперативная память. И жесткий диск. Что ж вы все эти важные теги не добавили до кучи?
Роман Юрьевич Ипатьев, я уже попросил прощения, перед вами, за то что, эти мерзкие теги так вас раздражают.
А на ваш взгляд, какие теги нужно было указать? На будущее, подскажите, пожалуйста.
Вот читаю и не могу понять на кой черт тут разные сервера? В чем проблема разбить выполнение на треды и пустить хоть 1000 независимых скриптов на одном сервере?
Александр, разбить выполнение на треды
расшифруйте пожалуйста:))
nevesomostjke, что такое тренды - гугл. У пхп нет своей реализации многопоточности, как делаем мы: команда 1 создает треды, пишет в бд. Вторая команда принимает на вход номер треда и постоянно смотрит в бд что бы узнать появились ли записи для этого треда. Последняя команда висит в супервизоре (он запускает ее в столько потоков во сколько нужно). Реализаций тредов куча, интернеты в помош.
Среднее выполнения скрипта на одном сервере когда он парсит разом 9 сайтов ~4.1 секунды.

Возьмите что-нибудь асинхронное

Answer 1 · 2021-10-03 23:52:45

Скорее всего (не видя код сложно сказать точно) корень вашей проблемы в том, что данные с сайтов получаются последовательно. В таком случае вам достаточно будет выполнять запросы параллельно с помощью https://docs.guzzlephp.org/en/stable/quickstart.ht... или https://www.php.net/manual/ru/function.curl-multi-...

Answer 2 · 2021-10-03 22:56:05

Сергей Горностаев @sergey-gornostaev

Седой и строгий

Очевидно использование SQLite не по назначению, эта СУБД не предназначена для конкурентного и сетевого доступа.

Ответ написан более трёх лет назад

4 комментария

Answer 3 · 2021-10-04 06:53:13

Не совсем понятно, почему именно для вас 4,1 секунды - это долго, какие вообще требования закладываются? Как вариант предлагаю рассмотреть след. конфигурацию:

Разбить скрипт на 2: Первый будет делать запрос на ваши сайты, получать ответ и сохранять в спец. таблицу. Второй будет брать новые данные из этой таблицы, запускать нужный обработчик, разбирать сохраненный ответ и обновлять нужные вам данные в бд. В общем классические очереди (гуглить по словам php queue, php jobs)

Преимущества:
1. Разделены получение и обработка данных
2. Каждую часть скрипта можно отдельно модифицировать (например, получение через параллельные запросы)
3. Обработчиков очереди можно делать столько сколько вам нужно
4. При увеличении кол-ва сайтов время выполнения одного запроса не изменится.

Правильно я планирую развернуть сеть из серверов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт