Java Futures vs Goroutines

Question

Алексей Помогаев @Foror

Графоман

Java
Go

Java Futures vs Goroutines

Пишу поискового бота, который запрашивает URL и забирает контент по этому URL'у для дальнейшей обработки. Процессор поддерживает возможность запуска ботов в несколько потоков, но здесь возникает вопрос, что будет быстрее — java threads или green threads (или легкие потоки, как в go).

Предположим я использую HttpClient для получения контента по определенному URL'у. Думаю, есть смысл создать Future задачи и замапить их на 100-200 (цифры от балды) java threads, через тот же thread pool. Тем самым, HttpClient будет работать в java threads запрашивая и получая контент по URL'у. С учетом пингов, примерно в 100мс, на эту работу может уйти до 600мс.

Если я правильно понял, то благодаря неблокируемому IO, поток с кодом HttpClient будет засыпать как минимум на 100мс, благодаря чему эти 100-200 потоков будут шустро отрабатывать, засыпая при ожидании данных, а затем просыпаясь для их приема.

И конечно, будет отдельный поток, который в бесконечном цикле обходит Future и проверяет, какие данные приняты и отправлять их в другой поток для обработки.

Правильно ли я разобрался? Может есть смысл для этого использовать Go c routines, заместо java с threads, будет ли это быстрее? Или на java можно сделать как-то хитрее?

UPDATE
Пинги могут быть и в 1000мс, а значит нужно создавать потоков чем больше, тем лучше, т.е. чтобы каждый поток держал соединение. А если юзать тредовый пул, скажем нитей на 100, то при 3000 ботах, будет работать медленно. Т.е. после освобождения нити, новый бот её захватит и заснет на 1000мс из-за IO, а очередь будет из 30 ботов на одну нить. А так, если каждому боту поток или хотя бы 2-3 бота в очередь на поток, то будет шустрее.

Вот только вопрос, какие пределы, скажем для какого-нибудь простого Core 2 Duo процессора? Какая будет разница в производительности, если юзать легкие нити go или делать тяжелые в java? 10 000 java потоков vs 10 000 goroutines c IO в 100-1000мс? Но видимо, здесь никто такое не тестил, буду сам разбираться сейчас.

Вопрос задан более трёх лет назад
4541 просмотр

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Академия Эдюсон

Java-разработчик + ИИ

8 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

5 комментариев

Алексей Помогаев @Foror Автор вопроса

Я так думаю почитав про Erlang и про Go — как они хвалятся какие у них легкие потоки, не то что в java :) А почему вы думаете, что треды явы легкие? :)

Я уже заменил HttpClient на java.net.URL, получилось поднять производительность в два раза :)

Про -Xss, да я в курсе, но тут вопрос не в памяти, а в том, что куча потоков будет тратить кучу времени на переключение.

Написано более трёх лет назад
bald2b @bald2b

ну так у вас задача не вычислительная, тут затраты на переключения будут мизерные. Поток будет 99.99% времени качать и сохранять.

Написано более трёх лет назад
bald2b @bald2b

Тысяч потоков и не надо наверно, пары сотен хватит чтобы нагрузить канал

Написано более трёх лет назад
Алексей Помогаев @Foror Автор вопроса

А если потоков одновременно будет 3000? Эти мизерные затраты могут стать часами, а то и днями при большом количестве данных. Плюс при пингах в 100-300мс, оптимально иметь 40 потоков на Core 2 Duo, а при больших пингах 1-2 сек нужно уже делать под 1000 потоков.

Вот мне и интересно в Go нужно также париться, настраивая пул на нужное количество потоков? Или там просто запустил горутины и оно само всё оптимально раскидала с учетом IO.

Написано более трёх лет назад
bald2b @bald2b

В Java7 ввели Fork and Join который является аналогом горутинов

Написано более трёх лет назад

5 комментариев

Алексей Помогаев @Foror Автор вопроса

производительности IO хватает, или если быть точнее, в том и смысл, что с учетом пингов нужно оптимально нагрузить как сеть, так и треды.

Написано более трёх лет назад
Beholder @Beholder

Знаете, слово «ping» имеет совсем другое значение.
Вероятно, вы имели в виду «latency».

Вы сперва сделайте хоть заготовку приложения на просто тредах, а потом уже будете смотреть, тормозит оно или нет, и потом уже при необходимости оптимизировать.

Написано более трёх лет назад
Алексей Помогаев @Foror Автор вопроса

про ping знаю, он здесь один из ключевых элементов при настройке числа потоков, приложение уже сделал, пока хватает производительности на java

Написано более трёх лет назад
Beholder @Beholder

Ну раз хватает — зачем дёргаться?

Написано более трёх лет назад
Алексей Помогаев @Foror Автор вопроса

интересно, жажда к знаниям :)

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 91 просмотр
1

ответ
Go

Средний
Насколько сильно стоит завязываться на абстракции на примере репозитория?
- 1 подписчик
- 23 июн.
- 151 просмотр
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1446 просмотров
10

ответов
Go

+1 ещё

Простой
Как правильно описывать архитектуру для REST API приложения?
- 1 подписчик
- 14 мая
- 310 просмотров
2

ответа
Java

Простой
Почему не запускается Flyway?
- 1 подписчик
- 12 мая
- 192 просмотра
2

ответа
Java

Простой
Можно ли сделать «псевдоним» для пакета?
- 3 подписчика
- 06 мая
- 242 просмотра
1

ответ
Java

Простой
Возможно ли добавлять методы в пакет чужой библиотеки?
- 1 подписчик
- 05 мая
- 193 просмотра
2

ответа
Java

+2 ещё

Сложный
Как гарантировано закрыть сокет через ServerSocket?
- 2 подписчика
- 30 апр.
- 182 просмотра
1

ответ
Java

Средний
Как получать ввод с конкретной клавиатуры и мышки, если их несколько?
- 2 подписчика
- 29 апр.
- 163 просмотра
1

ответ
Go

Простой
Файл конфигурации для модуля?
- 1 подписчик
- 21 апр.
- 160 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2012-02-14 03:44:34

А почему вы думаете, что треды явы настолько тяжелые? HttpClient сам по себе тяжелый наверно для задач просто скачивания :)
Я бы на вашем месте вместо извращений с go написал свой простой скачиватель контента вместо HttpClient, выхлопа будет больше. Насчет количества потоков Java — каждый поток занимает по умолчанию 2 Мб памяти при создании (можно уменьшить ключом JVM -Xss), вот и думайте сколько можно запустить

Answer 2 · 2012-02-14 07:34:08

Beholder @Beholder

Самое медленное будет — сеть, а не потоки.

Ответ написан более трёх лет назад

5 комментариев

Answer 3 · 2014-04-16 15:46:19

При решении подобной задачи, я бы обратил внимание на Akka (пример на хабре habrahabr.ru/post/125717/). Каждую таску с запросом оборачивал бы в класс актера. Можно было бы и самостоятельно заморачиваться многопоточностью, но тогда следовало бы иметь ввиду необходимость пулов потоков и т.д и т.п.

Java Futures vs Goroutines

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт