• Ozon.ru sitemap - может кто видел где или как?

    Geronom
    @Geronom Автор вопроса
    Вот и стало не совсем понятно, где же хранят сие дело
  • Есть ли хороший прокси для парсинга Яндекс?

    Geronom
    @Geronom Автор вопроса
    Кирилл, а были тесты с ними или это просто как вариант, но реальных тестов не было?
  • Есть ли хороший прокси для парсинга Яндекс?

    Geronom
    @Geronom Автор вопроса
    Интересное предложение, но разгадывание капчи в автоматическом режиме без сервисов и чтобы все были корректно - есть.

    Проблемы разгадать капчу никакой нет, поэтому просто купить разгадывание, которое и без того реализовано, увы, не решение проблемы с частым появлением капчи как таковой.

    И да, проблема именно в самих прокси, пока свежие все хорошо, но быстро становятся "не вариант", отсюда и вопрос о том, какие взять хорошие прокси или как еще можно решить данный вопрос.
  • Есть ли хороший прокси для парсинга Яндекс?

    Geronom
    @Geronom Автор вопроса
    bqio, пробовал, толку не было, там прокси просто жуткие по данной части, увы
  • Поиск и объединение данных по условию в ConcurrentQueue / Dictionary – как?

    Geronom
    @Geronom Автор вопроса
    #, актуально. Ответ любой удобный, мне главное что-то от чего отталкиваться.
  • Поиск и объединение данных по условию в ConcurrentQueue / Dictionary – как?

    Geronom
    @Geronom Автор вопроса
    test1 = new List()
    {
    "текст 1",
    "текст 2",
    "текст 3",
    "текст 4",
    "текст 5"
    };

    test2 = new List()
    {
    "текст 01",
    "текст 02",
    "текст 03",
    "текст 3",
    "текст 4",
    "текст 5"
    };

    test3 = new List()
    {
    "текст 1",
    "текст 2",
    "текст 3",
    "текст 49870",
    "текст 687"
    };

    test4 = new List()
    {
    "текст 01",
    "текст 02",
    "текст 03",
    "текст 411",
    "текст 611"
    };

    Если обходить с начала в конец, то берется test1 и считается что он маркерный и все остальное сравнить с ним и будет в результате набор объединений, внутри которых не обязательно все элементы содержат одинаковые наборы данных, т.е. минимум 3 совпадения по значениям.

    Если так делать, то на первой итерации будет группа

    test1 = new List()
    {
    "текст 1",
    "текст 2",
    "текст 3",
    "текст 4",
    "текст 5"
    };

    test2 = new List()
    {
    "текст 01",
    "текст 02",
    "текст 03",
    "текст 3",
    "текст 4",
    "текст 5"
    };

    test3 = new List()
    {
    "текст 1",
    "текст 2",
    "текст 3",
    "текст 49870",
    "текст 687"
    };

    Так как test2 и test3 имеют что-то общее с test1.
    Теперь сравнение внутри группы и получается, что тут может быть 2 вариант

    Лишний

    test3 = new List()
    {
    "текст 1",
    "текст 2",
    "текст 3",
    "текст 49870",
    "текст 687"
    };

    Или лишний

    test3 = new List()
    {
    "текст 1",
    "текст 2",
    "текст 3",
    "текст 49870",
    "текст 687"
    };

    Какой именно убрать помогает понять (тут не знаю точно как это сделать) последующие подобные рассуждения, когда становится видно, что удастся сформировать еще пару только в случае, когда лишний в первой группе будет

    test2 = new List()
    {
    "текст 01",
    "текст 02",
    "текст 03",
    "текст 3",
    "текст 4",
    "текст 5"
    };

    Так как его можно совместить с

    test4 = new List()
    {
    "текст 01",
    "текст 02",
    "текст 03",
    "текст 411",
    "текст 611"
    };

    И не потерять объединение.

    Итого получится

    1 пара

    test1 = new List()
    {
    "текст 1",
    "текст 2",
    "текст 3",
    "текст 4",
    "текст 5"
    };

    test3 = new List()
    {
    "текст 1",
    "текст 2",
    "текст 3",
    "текст 49870",
    "текст 687"
    };

    И вторая пара

    test2 = new List()
    {
    "текст 01",
    "текст 02",
    "текст 03",
    "текст 3",
    "текст 4",
    "текст 5"
    };

    test4 = new List()
    {
    "текст 01",
    "текст 02",
    "текст 03",
    "текст 411",
    "текст 611"
    };

    И вводных таких наборов данных в плане test может быть любое количество, четное или нечетное как угодно, но на выходе никаких дублей и прочего быть не должно, а что не удается объединить, то будет само по себе по типу объединение содержит 1 элемент ну и пусть.
  • Поиск и объединение данных по условию в ConcurrentQueue / Dictionary – как?

    Geronom
    @Geronom Автор вопроса
    Извиняюсь если не так пояснил, но вот такая идея

    Результат

    Название объединения – номер
    Ключи в группе

    То есть в данном случае это словарь, в котором ключ это порядковый номер объединения, а значение это лист входящих в него названий test.

    То есть

    1
    test1
    test3

    2
    test2
    test4

    и т.д.
  • Поиск и объединение данных по условию в ConcurrentQueue / Dictionary – как?

    Geronom
    @Geronom Автор вопроса
    как угодно, конечный вариант довести до ума не проблема. мне главное саму идею понять и все
  • Поиск и объединение данных по условию в ConcurrentQueue / Dictionary – как?

    Geronom
    @Geronom Автор вопроса
    Может не так поясняю, но сама суть вот такая:

    Для того, чтобы ключи попали в одну группу, требуется наличие у всех них единого набора тех же самых общих данных.

    Вариант, когда будут объединения и внутри могут быть элементы, которые не обязательно между собой имеют что-то общее из данных я сделал, там проблем не возникло, а вот с учетом что данные общие обязаны быть вот тут возникла проблема.
  • Поиск и объединение данных по условию в ConcurrentQueue / Dictionary – как?

    Geronom
    @Geronom Автор вопроса
    результат просто список
    ключ 2 - объединение
    ключ 4
    ключ 1 - объединение
    ключ 3

    объединение указывает на старт нового объединения, а далее все что в нем пишется
  • Поиск и объединение данных по условию в ConcurrentQueue / Dictionary – как?

    Geronom
    @Geronom Автор вопроса
    #, test1 содержит
    "текст 1",
    "текст 2",
    "текст 3",

    test3 содержит
    "текст 1",
    "текст 2",
    "текст 3",

    Они объединяются, так как в этой группе у каждого из элементов будет некий набор общих value и число таких value не меньше 3.

    test2 содержит
    "текст 01",
    "текст 02",
    "текст 03",

    И

    test4 содержит

    "текст 01",
    "текст 02",
    "текст 03",

    Но если смотреть на сравнение по первому элементу, то можно собрать группу
    test1
    test2
    test3

    так как test2 и test3 имеют не менее 3-х общих элементов с test1, только в этой группе все test не будут между собой иметь одинаковый набор элементов, а потому такая группа не будет верной.
  • Поиск и объединение данных по условию в ConcurrentQueue / Dictionary – как?

    Geronom
    @Geronom Автор вопроса
    #, не получается сделать группировку так, чтобы в одной группе были только те данные, которые между собой имеют одинаковые минимум 3 элемента
  • Поиск и объединение данных по условию в ConcurrentQueue / Dictionary – как?

    Geronom
    @Geronom Автор вопроса
    Когда я редактирую вопрос у меня все данные показываются четко. Издеваться мне неинтересно и лучше умет общаться, а не такое писать, когда в редакторе одно, а тут почему-то другое, я не знаю как это править иначе.
  • Поиск и объединение данных по условию в ConcurrentQueue / Dictionary – как?

    Geronom
    @Geronom Автор вопроса
    Да, поправил, редактор сбил код.
  • Как получить GOOGLE_ABUSE_EXEMPTION?

    Geronom
    @Geronom Автор вопроса
    profesor08, спасибо за совет, но тут речь исключительно и только про парсинг выдачи Гугл т.е. делает запрос по типу https://www.google.com/search?q=вопрос и в какой-то момент Гугл отдает рекапчу v2. Ее решает сервис и возвращает токен, я его отправляю по адресу вида https://www.google.com/sorry/index?q=специальный параметр как получить известно&continue=урл куда перенаправить когда все ок&g-recaptcha-response=токен. И в ответ на данный post запрос должен быть редирект и далее получение куки, но этого нет и идет неприятное сообщение, которое говорит о не прохождении капчи но ТОЛЬКО на поиске, никаких других сайтов тут нет.

    Ставить вручную, получать и после ставить и другие варианты тут не срабатывают.
  • Как получить GOOGLE_ABUSE_EXEMPTION?

    Geronom
    @Geronom Автор вопроса
    dimonchik2013, подобные эксперименты были проделаны, поэтому и обращаюсь с вопросом - как определяет Гугл робот или не работ на поиске?

    Нет, я не смог все еще найти точного решения и если есть опыт в данном вопросе по выдаче Гугла это будет очень приятная помощь, так как общие советы решить данный вопрос не помогают совсем никак.
  • Как получить GOOGLE_ABUSE_EXEMPTION?

    Geronom
    @Geronom Автор вопроса
    Может есть некий дельный и более точный совет или не было у вас дел с рекапчей именно на поиске Гугла? Я полностью и имитирую и без проблем прохожу все варианты капч, в том числе тестовую от Гугла: https://www.google.com/recaptcha/api2/demo

    И там нет никаких трудностей с рекапчей 2, как и на любом сайте, где есть данная капча.

    А именно и исключительн на поиске Гугл ни один подход не сработал.

    Я понимают, что теоритически все имитировать ПОЛНОСТЬЮ и смотреть что да куда идет, но практически это не срабатывает ТОЛЬКО на поиске, а везде срабатывает.
  • Проблема связки [Парсер выдачи Гугл + rucaptcha + recaptcha2] - как пройти капчу?

    Geronom
    @Geronom Автор вопроса
    Надим Закиров, на данный момент с полученным от сервиса токеном не пропускает, но еще проверяю что да как. Может сервис не совсем удачный или гадается не всегда удачно для прохождения - тут у меня опыта мало с капчей гугла и ее обходом, потому и возник вопрос.