Как быстро сравнить два url?

Question

tutunak @tutunak

Python
SQL

Как быстро сравнить два url?

Доброго времени суток!

Стоит задача сравнивать поподающие в систему новыу url файлов на уникальность. количество уникальных url в файле несколько сотен тысяч. Как я понимаю сравнивать полностью строки не очень эффективно. Появилась мысль, что можно сравнивать хеши этих строк. Коллизиями можно пренебречь. Какую базу данных выбрать для хранения hash? Я не нашел в sqlite возможности хранить хеши и достатчоно быстро сравнивать hash урла сравнить с hash урла. Может быть есть какие то готовые варианты? Или необходимо использовать другую базу данных?

Вопрос задан более трёх лет назад
801 просмотр

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

Комментировать

6 комментариев

Roman K @deliro

При сплите по пробелам пробел можно не указывать.

Написано более трёх лет назад
Igor Nikolaev @nightvich

Roman Kitaev: можно, тут я указал, чтобы автору вопроса было понятно, что там может быть знак, принимаемый за разделитель.

Написано более трёх лет назад
tutunak @tutunak Автор вопроса

я не совсем понял как это мне поможет. У меня есть файл с 100 000 строк. каждая строка это уникальный url. При парсинге я получают N колличество (от 0 до 20) новых url . И каждый из них я должен сравнить с 100 000 предыдущих (+ этот же файл будет увеличиваться с каждым появлением новых уникальных url). Или сравнение будет достаточно в python? Нужно что бы все это отрабатывало в течении несколькоих секунд максимум. Вот поэтому я и задумался о сравнение хешей средствами базы данных. Ну либо я чего то не понимаю.

Написано более трёх лет назад
tutunak @tutunak Автор вопроса

* ли сравнение будет достаточно быстро работать в python?

Написано более трёх лет назад
Igor Nikolaev @nightvich

а вы попробуйте, скорее всего скорости вам будет достаточно

Написано более трёх лет назад
Артём Клименко @aklim007

tutunak: ээм, замените только в решении list на set, и проверка на вхождение ускориться порядка на три.
Если все данные помещаются в памяти, то такое решение будет максимально быстрым.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 197 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 505 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 482 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 275 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 495 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 209 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 660 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2016-06-30 17:19:19

tutunak И каждый из них я должен сравнить с 100 000 предыдущих (+ этот же файл будет увеличиваться с каждым появлением новых уникальных url).
Так-то в базах данных есть индексирование, они умеют строить деревья который оптимизируют поиск...
>>Появилась мысль, что можно сравнивать хеши этих строк.
Зачем писать велосипед если базы за вас это делают?

Answer 2 · 2016-07-04 09:06:56

Прошу прощения, затупил конкретно. Все что было до этого не считается.
Если все данные в файле, то как я понимаю мы можем прочитать его с помощью следующего кода:
urls = open('urls.txt', 'r').read()
После того как мы его прочитаем нам его даже на массив строк разбивать не нужно. Есть замечательная функция find. Если строка найдена, то возвращает номер символа с которого начинается строка, если ее нет возвращает -1.
Весть код будет выглядеть так:

url = 'http://google.ru/'
urls = open('urls.txt', 'r').read()
find = urls.find(url)
if find==-1:
   urls.close()
   urls = open('urls.txt', 'w').write(url)
else:
   #тут код который вызываем при нахождении урла в базе.

Если url несколько, то их пилим в массив, и каждый ищем в базе, скорость поиска зашкаливает (если все правильно написать).

Answer 3 · 2016-06-30 12:25:49

Igor Nikolaev @nightvich

ITman

Судя по описанию, вам нужно сделать примитив в виде:

x = []
for i in data.split(" "):
    if i not in x:
        x.append(i)

Ответ написан более трёх лет назад

6 комментариев

Как быстро сравнить два url?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт