Как хранить данные лучше всего?

Question

ffff567 @ffff567

Python

Как хранить данные лучше всего?

В текстовом документе есть список телефонных номеров и напротив него анкеты объявлений на разлиныхь сайтах на которых они размещены
+0 (000) 000-00-00 bb.ru
+0 (000) 000-00-00 b2.ru
+0 (000) 000-00-00 b4.ru
+0 (000) 000-00-00 b2.ru

Хочу построить новую базу Проверить есть ли такая де анкета на другом номере телефона если есть то объдинить 2 номера телефона в один

Вопрос задан 4 часа назад
85 просмотров

10 комментариев

Подписаться 1 Простой 10 комментариев

rPman @rPman

есть ли такая де анкета
критерий 'такойжести' достаточно сравнения (например нечеткое сравнение, удалив из строк все кроме букв, цифр и знаков препинания) или что то сложнее?

Не очень понимаю, зачем нужна база, но если так, в любом случае, достаточно привести телефонный номер к унифицированному виду (обязательный +0, никаких лишних символов кроме цифр)

Написано 4 часа назад
ffff567 @ffff567 Автор вопроса

rPman, чтобы определять у какаого номера сколько объявлений и какие они. Теперь надо переработать базу опредлить была ли анкета на другом какой нибудь номере. если была то надо как то объединить 2 номера в 1

Написано 4 часа назад
shurshur @shurshur

ffff567, нужен критерий "похожести", тогда есть о чём говорить. Например, можно сравнить текст объявления с помощью расстояния по Левенштейна, если оно маленькое - считать похожим (не забывать при этом, что на коротких текстах расстояние всегда будет маленьким и этот случай надо аккуратно обработать отдельно, чтобы не слить тысячи коротких текстов в один).

Написано 4 часа назад
ffff567 @ffff567 Автор вопроса

shurshur, ниче не понял пример напиши

Написано 4 часа назад
shurshur @shurshur

ffff567, например, пусть есть три объявления на одном сайте:

+телефон: куплю гараж в Москве
+телефон: куплю гараж в Питере
+телефон: продам гараж в Москве

И на другом сайте:

+телефон: куплю гараж в Москве или в Питере
+телефон: гараж в Москве куплю недорого

Вот надо каждому тексту в первом списке найти парный во втором списке. Как найти "то же самое объявление" при таком несовпадении текстов? Тем более что формат представления на сайтах может быть различен. Например, на одном есть отдельное поле "часы для связи", а на другом - нет - и там соответствующая инфа может как присутствовать (в свободной форме в тексте, например, не просто интервал "18:00-02:00", а "после 6 вечера"), так и может быть просто опущена вообще.

В общем, это проблема не про хранение, а про алгоритм поиска "того же самого объявления". А поскольку многие объявления очень короткие и однотипные (десятки людей могут просто продавать гараж без лишних комментариев), то это очень сложно и будет гигантское количество ложных срабатываний.

Большинство парсящих чужие доски объявлений борются не за сравнение текста, а за извлечение реального номера телефона. И именно поэтому любая доска всячески сопротивляется этому, закрывая номер сложным js, капчей или даже временно генерируемым прокси-номером.

Написано 4 часа назад
Vindicar @Vindicar

ffff567, тебе задали вполне конкретный вопрос: что значит "такая же анкета" во фразе "есть ли такая же анкета на другом номере телефона". Т.е. есть две анкеты, как ты решишь, они одинаковые или нет? Решение будет целиком зависеть от этого.

А то тебе сразу готовый код подавай.

Написано 4 часа назад
ffff567 @ffff567 Автор вопроса

Vindicar, например объявление эскортниц на одно объявлении указана одна девушка с этитм номером телефона на другом объявлении с таким же номером телефона другая.
Вот хочу проверить все ссылки которые есть содержатся ли они в других номерах телефонов

Написано 3 часа назад
ffff567 @ffff567 Автор вопроса

Vindicar, текущая база у меня сейчас такая в ключе словаре телефон в значениях все ссылки на объявления со мнойгих сайтов.

Написано 3 часа назад
Vindicar @Vindicar

ffff567, вот. Отсюда получается такая логика.
1. Вытаскиваешь важную для тебя часть объявления (например, только ссылки). Назовём её дайджест.
2. Хранишь соответствие "номер телефона - дайджест".
После этого можно будет сравнивать дайджесты разных телефонов. Но всё равно может быть ситуация, когда дайджесты совпадают неидеально - например, одни и те же ссылки в разном порядке. Так что придётся думать, как измерить степень соответствия.

Написано 3 часа назад
Viktor T2 @Viktor_T2

https://github.com/fangzhou-xie/levenpandas
https://github.com/RobinL/fuzzymatcher
https://habr.com/ru/articles/491448/

Написано 3 часа назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему после удаления Python не пропали 2 папки и как их удалить?
- 1 подписчик
- вчера
- 145 просмотров
1

ответ
Python

Простой
Куда надо устанавливать Python и его библиотеки?
- 1 подписчик
- вчера
- 184 просмотра
3

ответа
Python

Простой
Как создать task в __init__ asyncio?
- 1 подписчик
- 07 мая
- 412 просмотров
1

ответ
Python

Простой
Какой способ эффективнее при объединении двух словарей?
- нет подписчиков
- 06 мая
- 260 просмотров
1

ответ
Python

Простой
Автоматизация входа на устройство через Jumphost с целью передачи команд?
- 1 подписчик
- 06 мая
- 98 просмотров
1

ответ
Python

+1 ещё

Простой
В ffmpeg неправильно считывается имя пользователя, он видит в нем цифру и начинает ее раскладывать, как пофиксить?
- 1 подписчик
- 06 мая
- 142 просмотра
1

ответ
Python

+2 ещё

Средний
Бот долго отвечает сообщением, где фото+текст. Как исправить?
- 1 подписчик
- 05 мая
- 204 просмотра
1

ответ
Python

Простой
Как добавить в дату, записанную в строке, нули перед месяцем и днём?
- 1 подписчик
- 05 мая
- 179 просмотров
4

ответа
Python

Простой
Как завершить работу консольного приложения?
- 1 подписчик
- 04 мая
- 193 просмотра
1

ответ
Показать ещё Загружается…

Python-разработчик

BCraft

от 2 000 до 3 500 $

Python разработчик Senior

Туроператор «Русь» • Москва

от 200 000 до 300 000 ₽

Python разработчик

DevTeam.Space • Москва

от 1 500 до 3 000 $

есть ли такая де анкета
критерий 'такойжести' достаточно сравнения (например нечеткое сравнение, удалив из строк все кроме букв, цифр и знаков препинания) или что то сложнее?

Не очень понимаю, зачем нужна база, но если так, в любом случае, достаточно привести телефонный номер к унифицированному виду (обязательный +0, никаких лишних символов кроме цифр)
rPman, чтобы определять у какаого номера сколько объявлений и какие они. Теперь надо переработать базу опредлить была ли анкета на другом какой нибудь номере. если была то надо как то объединить 2 номера в 1
ffff567, нужен критерий "похожести", тогда есть о чём говорить. Например, можно сравнить текст объявления с помощью расстояния по Левенштейна, если оно маленькое - считать похожим (не забывать при этом, что на коротких текстах расстояние всегда будет маленьким и этот случай надо аккуратно обработать отдельно, чтобы не слить тысячи коротких текстов в один).
shurshur, ниче не понял пример напиши
ffff567, тебе задали вполне конкретный вопрос: что значит "такая же анкета" во фразе "есть ли такая же анкета на другом номере телефона". Т.е. есть две анкеты, как ты решишь, они одинаковые или нет? Решение будет целиком зависеть от этого.

А то тебе сразу готовый код подавай.
Vindicar, например объявление эскортниц на одно объявлении указана одна девушка с этитм номером телефона на другом объявлении с таким же номером телефона другая.
Вот хочу проверить все ссылки которые есть содержатся ли они в других номерах телефонов
Vindicar, текущая база у меня сейчас такая в ключе словаре телефон в значениях все ссылки на объявления со мнойгих сайтов.
ffff567, вот. Отсюда получается такая логика.
1. Вытаскиваешь важную для тебя часть объявления (например, только ссылки). Назовём её дайджест.
2. Хранишь соответствие "номер телефона - дайджест".
После этого можно будет сравнивать дайджесты разных телефонов. Но всё равно может быть ситуация, когда дайджесты совпадают неидеально - например, одни и те же ссылки в разном порядке. Так что придётся думать, как измерить степень соответствия.
https://github.com/fangzhou-xie/levenpandas
https://github.com/RobinL/fuzzymatcher
https://habr.com/ru/articles/491448/

Как хранить данные лучше всего?

Войдите, чтобы написать ответ

Почему после удаления Python не пропали 2 папки и как их удалить?

Куда надо устанавливать Python и его библиотеки?

Как создать task в init asyncio?

Какой способ эффективнее при объединении двух словарей?

Автоматизация входа на устройство через Jumphost с целью передачи команд?

В ffmpeg неправильно считывается имя пользователя, он видит в нем цифру и начинает ее раскладывать, как пофиксить?

Бот долго отвечает сообщением, где фото+текст. Как исправить?

Как добавить в дату, записанную в строке, нули перед месяцем и днём?

Как завершить работу консольного приложения?

Минуточку внимания

Как хранить данные лучше всего?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт