Почему так плохо работает сеть в cron?

Question

OCTAGRAM @OCTAGRAM

Почему так плохо работает сеть в cron?

У меня уже был опыт настройки автоматического получения сертификатов от Let's Encrypt. Плёвое дело, подумал я, и взял очередной заказ. Скопировал по аналогии все скрипты с другого сервера. Проверил с командной строки, поставил в cron. На всякий случай, на ближайшую дату. И что же. Наступает этот день и ничего. Стоит старый сертификат красуется. В чём дело, непонятно. С командной строки запустил, оп, и сертификат обновился. Совсем другое дело.

Выясняя, а почему такая разница между запуском из командной строки, в несколько итераций увеличил детализацию certbot. Он по какой-то причине долго молчал как партизан, ни слова из него вытащить не удавалось. Если потоки в файл перенаправить, они создаются, но пустые, хоть там какой debug и ещё вдогонку три раза verbose указать в параметрах. Понимайте как хотите. Опытным путём установлено, что у него развязывается язык, если запускать его из терминала. А если в cron нет терминала, то в качестве терминала сойдёт screen. Добавил в начало cron-скрипта

if [ -z "$STY" ]; then exec screen -dm -S Lets-Encrypt-Renewal /bin/bash "$0"; fi

Наконец, certbot разговорился. И начал жаловаться

requests.exceptions.ConnectionError: HTTPSConnectionPool(host='acme-v02.api.letsencrypt.org', port=443): Max retries exceeded with url: /directory (Caused by NewConnectionError(': Failed to establish a new connection: [Errno -3] Temporary failure in name resolution'))

Я в crontab время подгонял, чтоб скрипт запустился ещё раз и ещё раз. Получал в журнале Temporary failure in name resolution. Нет ничего более постоянного, чем временное. Практика показывает, что такая ошибка часто, но не всегда, а потом ещё может ошибка соединения возникать. Но стоит запустить скрипт из командной строки, и, о чудо, сертификат обновился с одной попытки. Правда, у LE есть rate limit, так что если с командной строки несколько успешных попыток сделать, потом двое суток нельзя будет убедиться, что скрипт действительно работает.

В системе используется systemd-resolved. В /etc/resolv.conf прописан сервер 127.0.0.53. Это вот с ним связь не ладится в контексте cron. Я могу с командной строки попинговать сервер Let's Encrypt, и в кеше DNS IP точно будет, вот только до 127.0.0.53 не сможет вот так просто взять и добраться программа, запущенная из cron. Тяжело связаться с локалхостом, связь с локалхостом по старым телефонным проводам, ну или не знаю, как это понимать. Попинговав с командной строки, я пришёл к идее попинговать из cron тоже. Результат:

PING ca80a1adb12a4fbdac5ffcbc944e9a61.pacloudflare.com (172.65.32.248) 56(84) bytes of data.
64 bytes from 172.65.32.248 (172.65.32.248): icmp_seq=1 ttl=56 time=5.50 ms

--- ca80a1adb12a4fbdac5ffcbc944e9a61.pacloudflare.com ping statistics ---
4 packets transmitted, 1 received, 75% packet loss, time 3058ms
rtt min/avg/max/mdev = 5.500/5.500/5.500/0.000 ms

Ещё бывают ответы Destination host unreachable от IP сервера, с которого делается пинг. С командной строки пинг 100%, из cron 25%. Стабильно проблемы. Сеть работает ни к чёрту из cron, а с командной строки (ssh) нормально. Один и тот же сервер, а почему такая разница.

Итак, у нас проклятый cron. cron запускает скрипт, и проклятье переходит на скрипт. Скрипт запускает screen и себя в нём, и проклятье переходит на экземпляр screen и на скрипт внутри screen. И дальше рекурсивно проклятье переходит на все программы, запущенные из скрипта, хоть ping, хоть certbot.

Ну что это может быть? Что-то такое, что наследуется процессами. Я подумал в сторону ulimit. Запустил

ulimit -a -S && ulimit -a -H

Из командной строки (SSH) и в журнал в контексте cron. Поиграл в игру «найди хоть одно отличие» и проиграл. Получилось два побайтно идентичных файла с содержимым:

real-time non-blocking time (microseconds, -R) unlimited
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 63378
max locked memory (kbytes, -l) 2041946
max memory size (kbytes, -m) unlimited
open files (-n) 1024
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 63378
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
real-time non-blocking time (microseconds, -R) unlimited
core file size (blocks, -c) unlimited
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 63378
max locked memory (kbytes, -l) 2041946
max memory size (kbytes, -m) unlimited
open files (-n) 1048576
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) unlimited
cpu time (seconds, -t) unlimited
max user processes (-u) 63378
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited

И с командной строки (SSH), и в cron одни и те же ограничения, и не видно разницы. Но разница есть. Какой-то яйцеголовый придумал ещё какие-то наследуемые особенности процесса, запрятал, и когда что-то пошло не так, я просто не знаю, где их искать.

Linux version 5.11.0-49-generic (buildd@lcy02-amd64-054) (gcc (Ubuntu 10.3.0-1ubuntu1) 10.3.0, GNU ld (GNU Binutils for Ubuntu) 2.36.1) #55-Ubuntu SMP Wed Jan 12 17:36:34 UTC 2022

bullseye/sid

Так что же это может быть

Дополнение 1.
Если создать пару service+timer, проблемы такие же, как в cron. Если запустить systemctl start my.service из командной строки (ssh), работает хорошо. Ещё попробовал сделать отдельный service для продления сертификатов, и другую пару service+timer, а старый таймер выключил и удалил. В новом service вызывается
ExecStart=/usr/bin/systemctl start old.service
Результат неизменный. Всё, что по таймеру, не работает, а с командной строки абсолютно такой же запуск systemctl start old.service работает. То есть, вместо того, чтобы честно передавать RPC в главный процесс systemd, чтобы главный процесс честно запускал одну и ту же службу всегда одним и тем же способом, systemctl запускает службу прямо из своего процесса systemctl и поэтому наследует тайное проклятье.

Я ещё раскопал prlimit, и он мне поведал, что в контексте cron необычно низкий memlock, 65536, а в ssh сильно больше. Поднял в скрипте memlock до миллиона, но чё-то как-то всё равно не помогло.

Вопрос задан более года назад
265 просмотров

8 комментариев

Подписаться 1 Средний 8 комментариев

Drno @Drno

bash certbot renew ... ?

Написано более года назад
OCTAGRAM @OCTAGRAM Автор вопроса

Drno, с командной строки (ssh) работает безупречно. Из cron сплошные проблемы, и DNS в несколько попыток не ответил, и соединение не установилось, всё что-то не ладится

Написано более года назад
Drno @Drno

OCTAGRAM, берем команду - bash certbot renew
запихиваем в баш скрипт
скрипт пихаем в крон

Написано более года назад
OCTAGRAM @OCTAGRAM Автор вопроса

Drno, и тот же самый скрипт из cron не работает, а если его в журнал заставить писать, там в журналах написано, что копец как плохо работает сеть

Написано более года назад
AlexVWill @AlexVWill

Поставь наконец то пакет из snap и попробуй с ним, чисто ради эксперимента.

Написано более года назад
OCTAGRAM @OCTAGRAM Автор вопроса

AlexVWill, мы тут немного дальше пошли. Отчёт на почту послать, хоть про удачу, хоть про неудачу. Есть настроенный веб-сервер, на котором готовые функции, чтобы настучать админу. Написал логику, что если не получилось выпустить сертификат, то заслать curl POST-запрос на сервер. И что же. В те неудачные запуски, когда сертификат не получилось выпустить, curl в журнал написал

curl: (7) Failed to connect to траляля port 443: No route to host

А что, curl тоже из snap ставить?

Написано более года назад
AlexVWill @AlexVWill

OCTAGRAM, пропиши вместо URL просто IP, проверь, может ресолвер на сервере как то криво настроен. Учитывая то, что в консоли ты запрос посылаешь от юзера, а службы обычно работают от root, возможно в этом есть какая то проблема.

Написано более года назад
OCTAGRAM @OCTAGRAM Автор вопроса

AlexVWill, в консоли я запрос посылаю от рута и службы работают от рута. No route to host = проблема не в DNS. Плохо работает всё

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Яндекс Практикум

DevOps для эксплуатации и разработки

6 месяцев

Далее
Яндекс Практикум

Go-разработчик с нуля

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

12 комментариев

OCTAGRAM @OCTAGRAM Автор вопроса

Там ещё надо серверу дать понять, что сертификаты новые. И ещё, бывает, что нужно скопировать сертификаты на другие сервера, и там на других серверах тоже стукнуть в службы. Не изучал возможности демона

Написано более года назад
AlexVWill @AlexVWill

OCTAGRAM,
вот это ключевое:

Не изучал возможности демона

Изучи.
А для всего остального помимо получения сертификата:

дать понять, что сертификаты новые. И ещё, бывает, что нужно скопировать сертификаты на другие сервера, и там на других серверах тоже стукнуть в службы

можешь делать и в кроне всякое, благо что это сделать довольно просто отследив наличие нового файла сертификата с новой датой.

Написано более года назад
Drno @Drno

снап не везде уместен и нужен

Написано более года назад
AlexVWill @AlexVWill

Drno, снап уместен и нужен ровно там, где он нужен и уместен. В данном случае, т.к. он решает поставленную задачу очень хорошо и не разу не видел с ним никакогого гимороя. В других случаях возможно и нет.

Написано более года назад
OCTAGRAM @OCTAGRAM Автор вопроса

AlexVWill, ну вообще в нормальной логике в скрипте стоит set -e, и если сертификаты обновить не получилось, то и дальше исполнение не идёт, ничего не перезаписывается. А если подглядывать за изменением файла, а вдруг там какой-то сертификат поломанный будет.

Unit snap.certbot.renew.service could not be found.

Какой-то не очень штатный, видимо.

можешь делать и в кроне всякое

А почему вдруг sftp сертификата на другой сервер сработает, если у certbot и ping такие проблемы

Написано более года назад
AlexVWill @AlexVWill

OCTAGRAM,

Какой-то не очень штатный, видимо.

Штатный snap пакет certbot ставит 2 службы: snap.certbot.renew.timer - который по таймеру запускает демон и snap.certbot.renew.service - который обновляет сертификаты. Если ты не snap ставил (не знаю что и откуда) - возможно у тебя их и нет, советую поставить snap.

Написано более года назад
OCTAGRAM @OCTAGRAM Автор вопроса

AlexVWill, я выяснил, что без snap эта служба называется certbot. Но там вызов

ExecStart=/usr/bin/certbot -q renew

В таком синтаксисе certbot не сможет применить настройки. Можно вместо bash скрипта попробовать устроить подкоп в виде --post-hook "systemctl reload имя-службы", но пока пробую всё же для скрипта сделать service+timer по аналогии. Вдруг systemd timer работает лучше crontab

Написано более года назад
Михаил Ливач @Mausglov

OCTAGRAM , мне certbot не зашёл, использую dehydrated. Он лёгкий, примитивный, и в нём есть хуки.
Но у Вас, судя по описанию, какая-то проблема с DNS, тут смена лошади не поможет..

Написано более года назад
OCTAGRAM @OCTAGRAM Автор вопроса

Михаил Ливач, и с пингом проблема, и со всем, что связано с сетью, включая localhost

Написано более года назад
VoidVolker @VoidVolker

OCTAGRAM,

И ещё, бывает, что нужно скопировать сертификаты на другие сервера, и там на других серверах тоже стукнуть в службы.

У сертбота нынче есть хуки - он может по нужному событию выполнить любую команду/скрипт.
В остальном - проверяйте конфиги сети и вышестоящие DNS сервера, возможно они там от хостера кривые какие-то или еще что.

Написано более года назад
OCTAGRAM @OCTAGRAM Автор вопроса

VoidVolker, а чем отличаются DNS-сервера в контексте cron от тех же самых серверов без cron?

Написано более года назад
VoidVolker @VoidVolker

OCTAGRAM, так-то по идее ничем, но мало ли какая хрень бывает?

Написано более года назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Простой
Не могу подключиться к серверу Linux Ubuntu по SSH — как исправить?
- 2 подписчика
- вчера
- 446 просмотров
5

ответов
Linux

+2 ещё

Средний
Туннель Wireguard — всё?
- 2 подписчика
- 21 окт.
- 8008 просмотров
3

ответа
Linux

+4 ещё

Простой
Возможно ли получить интернет с openwrt в proxmox?
- 1 подписчик
- 17 окт.
- 311 просмотров
4

ответа
Linux

+2 ещё

Простой
Как настроить Matrix Synapse сервер, чтобы работал клиент Element X (Element подключается)?
- 1 подписчик
- 17 окт.
- 128 просмотров
1

ответ
Linux

Средний
Какой Linux поставить в виртуалку, чтобы поднять на нём OpenVPN клиент и 3proxy сервер для локального использования?
- 4 подписчика
- 15 окт.
- 528 просмотров
4

ответа
Linux

Простой
Как запустить две копии программы в Linux?
- 3 подписчика
- 14 окт.
- 527 просмотров
4

ответа
Linux

+1 ещё

Простой
Какой самый стабильный и лучший вариант собрать QUIC для curl [cross-compilation]?
- 1 подписчик
- 14 окт.
- 124 просмотра
0

ответов
Linux

+2 ещё

Средний
Существует ли готовое решение или проект для организации Linux-шлюза с маршрутизацией, VPN и DPI-обходом?
- 6 подписчиков
- 13 окт.
- 1501 просмотр
2

ответа
Linux

+1 ещё

Средний
Не вижу трафика клиентов и их онлайн в панели 3x-ui, что можно сделать?
- 2 подписчика
- 13 окт.
- 816 просмотров
2

ответа
Linux

+1 ещё

Простой
Как запретить удаление папки в Linux?
- 1 подписчик
- 13 окт.
- 354 просмотра
3

ответа
Показать ещё Загружается…

Системный администратор

ТЕЛЕРУС • Москва

от 150 000 до 250 000 ₽

Системный администратор Linux

Abc staff • Москва

До 250 000 ₽

Ведущий инженер-проектировщик линий электропередачи (ЛЭП)

ЭЛСИ Энергопроект • Новосибирск

от 121 000 ₽

Drno, с командной строки (ssh) работает безупречно. Из cron сплошные проблемы, и DNS в несколько попыток не ответил, и соединение не установилось, всё что-то не ладится
OCTAGRAM, берем команду - bash certbot renew
запихиваем в баш скрипт
скрипт пихаем в крон
Drno, и тот же самый скрипт из cron не работает, а если его в журнал заставить писать, там в журналах написано, что копец как плохо работает сеть
Поставь наконец то пакет из snap и попробуй с ним, чисто ради эксперимента.
AlexVWill, мы тут немного дальше пошли. Отчёт на почту послать, хоть про удачу, хоть про неудачу. Есть настроенный веб-сервер, на котором готовые функции, чтобы настучать админу. Написал логику, что если не получилось выпустить сертификат, то заслать curl POST-запрос на сервер. И что же. В те неудачные запуски, когда сертификат не получилось выпустить, curl в журнал написал

curl: (7) Failed to connect to траляля port 443: No route to host

А что, curl тоже из snap ставить?
OCTAGRAM, пропиши вместо URL просто IP, проверь, может ресолвер на сервере как то криво настроен. Учитывая то, что в консоли ты запрос посылаешь от юзера, а службы обычно работают от root, возможно в этом есть какая то проблема.
AlexVWill, в консоли я запрос посылаю от рута и службы работают от рута. No route to host = проблема не в DNS. Плохо работает всё

Answer 1 · 2024-09-14 14:48:15

У меня встречный вопрос: для чего впихивать в крон невпихуемое, если для автообновления сертификатов есть специальный демон от certbot - snap.certbot.renew.service устанавливаемый штатно? К чему эти все упражнения?

Answer 2 · 2024-09-14 17:42:49

А ответы на SO проверяли? Например указать внешний ДНС или симлинк на resolv.conf исправить:

sudo ln -s /run/systemd/resolve/resolv.conf /etc/resolv.conf

На форуме letsencrypt есть несколько тем с проблемой ДНС в кроне в убунте:
https://community.letsencrypt.org/t/renewal-fails-...
https://community.letsencrypt.org/t/certbot-comman...

Почему так плохо работает сеть в cron?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт