Есть JSON который парсится с сайта каждые 15 минут. В нем хранится куча заказов. После чего весь этот JSON отправляется в Google Cloud Storage и оттуда в Google BigQuery. Проблема в том, что нужно как-то проверять, что какие-то заказы уже есть в таблице BigQuery дабы контент не повторялся.
Подскажите в какую сторону смотреть.
думал сравнивать айдишники. те которые скрапятся с сайта и те которые на облаке. но у меня проблема с либой которая открывает JSON, что лежит на облаке. нужно другое решение.
Игорь: мне кажется, что лучше разобраться с «либой которая открывает JSON, что лежит на облаке», чем пытаться изобретать велосипед. Сравнение по ID – хороший подход.