• Какие есть API для поиска файлов в свободном доступе?

    @nebo_oben Автор вопроса
    Еще нашел сервис Scribd, там есть API для поиска по загруженным документам https://ru.scribd.com/developers/platform/api/docs...
    Ответ написан
    Комментировать
  • Как пролистать страницу сайта Instagram до конца?

    Открой консоль разработчика (Ctrl + Shift + i в хроме) и посмотри на вкладке Network какие запросы отправляет сайт, когда ты жмешь кнопку "Загрузить еще", а отправляет он
    q=ig_hashtag(HASHTAG)+%7B+media.after(J0HV59zAwAAAF0HV59y8AAAAFkYA%2C+11)+%7B%0A++count%2C%0A++nodes+%7B%0A++++caption%2C%0A++++code%2C%0A++++comments+%7B%0A++++++count%0A++++%7D%2C%0A++++date%2C%0A++++dimensions+%7B%0A++++++height%2C%0A++++++width%0A++++%7D%2C%0A++++display_src%2C%0A++++id%2C%0A++++is_video%2C%0A++++likes+%7B%0A++++++count%0A++++%7D%2C%0A++++owner+%7B%0A++++++id%0A++++%7D%2C%0A++++thumbnail_src%2C%0A++++video_views%0A++%7D%2C%0A++page_info%0A%7D%0A+%7D&ref=tags%3A%3Ashow
    на хост https://www.instagram.com/query/, параметр стоящий в media.after, подозреваю, айдишник самого позднего фото в текущей выборке
    Ответ написан
    2 комментария
  • Как определить что у пользователя instagram нет фото профиля?

    Фото профиля не быть не может, если пользователь не установил его самостоятельно, то стоит дефолтный головастик, никаких флагов в ответе метода GET/users/user-id нет, поэтому самое простое: найти профиль с дефолтным фото, взять от него хэш и всякий раз сравнивать известный хэш с хэшом фото пользователя
    Ответ написан
    2 комментария
  • Как найти вредоносный трафик?

    Какие-то жидкие вам ответы дали. Вредоносы не используют какие-то специфичные протоколы, они пользуются всем тем же, что доступно и легитимному ПО, за исключением тех зверей, которые используют обмен данными на базе протоколов OSCAR, IRC и проч.
    Самый логичный ход -- использовать системы обнаружения атак. Snort, Suricata, Bro. Snort, например, уже старичок, сообщество огромное + долго и упорно развивается = легко использовать, легко настраивать, куча мануалов и гайдов. Большой плюс Snort - огромная база правил для обнаружения в трафике вредоносных пакетов, правила есть свободнораспространяемые, есть коммерческие, которые надо покупать, но в большинстве случаев, если вы не охраняете гостайну, то хватит и тех, что публикуются в открытом доступе (их надо своевременно обновлять). Для подробностей гуглить IDS или IPS и читать.
    Поскольку системы обнаружения работают на правилах, то у них имеется недсотаток - если правило не написано для чего-то конкретного, то это нечто проплывет мимо СОА. Поэтому имеет смысл периодически посматривать через анализаторы трафика, что там происходит в сети. Есть такое понятие как IOC (indicator of compromise), на их основе можно самому генерировать правила для систем обнаружения, эти индикаторы публикуются в открытом доступе на множестве ресурсов, например https://www.threatminer.org/. Отлавливаете трафик - проверяете на вхождение в него IOC, генерите соответствующее правило.
    Ответ написан
    Комментировать
  • Как начать тащить данные из API Instagram с помощью Python?

    Немножко примеров с разбором тут, а сам код целиком здесь, как пример для быстрого старта сойдет
    Ответ написан
    Комментировать
  • Как правильно собрать данные из Instagram API и Foursquare API?

    1. Обходить ограничения на один токен => нужно больше токенов, либо морочишься и регаешь кучу аккаунтов в данных соцсетях, либо вооружаешься поисковиками и ищешь на сайтах аля pastebin, ссылка на поисковик по 100+ таких ресурсов тык тык, там идешь в раздел Documents -> Custom Pastebins (Meta search). Цель - найти исходники чьи то, из которых забыли убрать токены, я однажды около 10 так насобирал, но заранее напиши себе небольшой скрипт чекер токенов, например такой:
    from requests import get
    ig_api_key = 'YOUR INSTAGRAM API KEY'
    answer = get('https://api.instagram.com/v1/users/search?q=facebook' + '&access_token=' + ig_api_key, verify=True).json()
    print answer

    Там соответственно подставляешь токен найденный и смотришь ответ, если все нормально, значит токен рабочий.
    НО: уверен, что в ToS Instagram API такое делать запрещено, поэтому на свой страх и риск.

    2. Как и сказано выше, кури доки и читай про Pagination, вот для примера два метода, которые вытаскивают данные о фотках пользователя (осторожно быдлокод, но для примера хватит).
    def get_data_from_json(json_text):
        answer = list()
        for element in json_text['data']:
            answer.append(element)
        return answer
    
    
    def get_media(username):
        answer = list()
        user_id = get_user_id(username)
        data = get('https://api.instagram.com/v1/users/' + user_id + '/media/recent/?access_token=' +\
                   ig_api_key, verify=True).json()
        try:
            if data[u'meta'][u'code'] == 200:
                if data[u'pagination'] == {}:
                    answer += get_data_from_json(data)
                else:
                    answer += get_data_from_json(data)
                    while True:
                        if data[u'pagination'] != {}:
                            data = get(data[u'pagination'][u'next_url'], verify=True).json()
                            answer += get_data_from_json(data)
                        else:
                            break
            else:
                answer = list()
        except:
            answer = list()
        return answer

    3. Теперь про город, для этого тебе нужно знать его координаты (либо можешь сам это автоматизировать через Google Maps API, там будет адрес -> координаты), далее придумываешь алгоритм по которому из двух координат lat\long будет генериться множество точек для последующего запроса к Instagram API, конкретнее, обратись к вот этому методу, он дает возможность получить данные по координатом на дистанции от 1 до 5 км, значит просто нужно покрыть город кругами с радиусом в 5 км, статья с хабра с похожей тематикой и кодом на питоне вот здесь. Дерзай и удачи!
    Ответ написан
    4 комментария
  • Как определить вхождение слова в текст, допуская незначительные грам. ошибки в нем?

    Самый простой путь - расстояние Хэмминга вот здесь, можно, например, рассмотреть типовые ошибки + опечатки, на основе длины слова делать вывод о возможном количестве ошибок, а затем уже считать расстояние Хэмминга и на этом основании принимать решение. Еще можно посмотреть на алгоритмы перцептивного хэширования для строк (похожие аргументы дадут похожий хэш) с последующим применением того же расстояния Хэмминга.
    Ответ написан
    Комментировать