Где искать информацию по интеллектуальному поиску?

Question

Roger Martino @rojermartino

Programmer from the Heaven

Где искать информацию по интеллектуальному поиску?

Здравствуйте!

Стоит некоторая задача. Я прошу помощи с определения отправной точки.
Суть в следующем:
На вход программе поступает некоторое количество параметром для поиска (пусть это будут стиральные машины).
Например:
Длина: От 50 До 150
Ширина: От 40 До 70
Оборотов в минуту: 1500
и тд
(Суть в том, что эти параметры как статичные[система умеет с ними работать], так и плавающие [хорошо бы по тексту получить семантику] )

На выходе мне нужно получить список ссылок из интернета с этими параметрами. (Сервер постоянно крутится и парсит сайты стиральным машинок и записывает найденные варианты в БД)

В чем собственно проблема?
1) Во первых, мне не очень понятно в каком виде хранить информацию.
Я вижу это так: Храним в БД все возможные параметры, которые удалось вытащить из сайтов.
При поступлении запроса, я получаю варианты по статичным параметрам + если получится получить параметры из текста с помощью нейросети, беру отбор и по этим критериям.

2) Тут собственно стоит вопрос получения семантики предложения или отдельных слов. Есть ли готовые библиотеки, которые упростят мне жизнь и предоставят что-то уже написанное? Чтобы я только обучил нейросеть и выпустил в работу?

3) Что выбрать для серверного языка? Сервер постоянно парсит сайт и пишет все в БД. Что для таких целей будет самым быстрым в разработке? Питон? Джава? Go? Какие варианты стоит рассмотреть? (Желательно с большим количество готовых либ [парсинг + БД + алгоритмы поиска и машинного обучения])

4) Может кто знает какие нибудь книги, статьи - любые источники, где я могу посмотреть что-то на данную тему?
Как вообще гуглить по таким запросам? :)

Вопрос задан более трёх лет назад
760 просмотров

2 комментария

Подписаться 6 Простой 2 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Юриспруденция в IT

+1 ещё

Простой
Агрегаторы мессенджеров (WhatsApp/Telegram/Instagram) в РФ: технически кто отвечает за данные?
- 1 подписчик
- вчера
- 150 просмотров
1

ответ
Программирование

+2 ещё

Средний
Возможно ли написать программу, которая будет удалять все данные с дисков?
- 2 подписчика
- 19 нояб.
- 723 просмотра
10

ответов
Хранение данных

Простой
Сервер (хранит) для хранения файлов и получение по ссылке?
- 1 подписчик
- 07 нояб.
- 247 просмотров
4

ответа
Хранение данных

+1 ещё

Средний
Масштабируемое хранилище. На основе чего?
- 1 подписчик
- 06 нояб.
- 118 просмотров
1

ответ
Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- 06 нояб.
- 43 просмотра
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 206 просмотров
0

ответов
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1443 просмотра
5

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 192 просмотра
1

ответ
Windows

+1 ещё

Простой
Что за страный файл F, как удалить?
- 5 подписчиков
- 17 сент.
- 9787 просмотров
1

ответ
Хранение данных

+3 ещё

Сложный
Как разделить хранилище на временно использование?
- 1 подписчик
- 16 сент.
- 125 просмотров
0

ответов
Показать ещё Загружается…

Backend developer

Creative Code

До 190 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Go-разработчик / Backend Developer (Golang)

Karma8

До 500 000 ₽

Ладно. Спрошу про конкретную задачу. Есть область поиска - недвижимость. И есть интервальные параметры. Например, количество комнат От х1 До Х2, площадь кухни От у1 До у2 и тд.
Задача: нужен алгоритм для обработки DOM дерева и определения, подходит ли страница с учетом этих параметров.
Я так понимаю тут нужна нейросеть? Или есть другие идеи?
Мне кажется, что данный вопрос было бы правильнее разбить на несколько вопросов, но не одновременно.

Answer 1 · 2017-10-20 17:50:40

1) Во первых, мне не очень понятно в каком виде хранить информацию.

На данный момент вижу это таким образом:
каждому набору фильтров для поиска будет соответствовать набор URL:
search_set_id => {URL1, URL2, ..., URLn}
Поскольку одни и те же URL будут повторяться неоднократно среди результатов для разных фильтров, то чтобы не раздувать БД, лучше создать таблицу urls:
id | url
1 | http: //gugu.ru?p=1
2 | http: //gugu.ru?p=2
3 | http: //kuku.ru
4 | http: //mumu.ru
Таким образом, каждому search_set_id будет соответствовать набор id из таблицы urls.

url_results
url_id | search_set_id
1 | 1
2 | 1
3 | 1
2 | 2
3 | 2

Набор характеристик для search_set_id можно хранить как набор id из разных пар ключ-значение (паттерн EAV) или как единый JSON (hstore в СУБД PostgreSQL).
Получив search_set_id можно найти соответствующий ему набор URL.

2) Тут собственно стоит вопрос получения семантики предложения или отдельных слов. Есть ли готовые библиотеки, которые упростят мне жизнь и предоставят что-то уже написанное? Чтобы я только обучил нейросеть и выпустил в работу?

Компьютерная лингвистика - нелёгкая наука. Копай сайт aot.ru , материалы Яндекс ШАД а также почитай про их Томита парсер и пр. Чуда ждать не стоит, лучше проконсультироваться с лингвистом.

3) Что выбрать для серверного языка?

Питон хорош тем что легко найти всякие библиотеки и в парсинге также популярен. Лучше бери то что лучше знаешь и на чём легче найти специалистов.

4) Может кто знает какие нибудь книги, статьи - любые источники, где я могу посмотреть что-то на данную тему?
Как вообще гуглить по таким запросам? :) Перед гуглением полезно чётко сформулировать свою задачу и не ставить слишком общие задачи. Про нейронные сети лучше забыть до лучшего понимания задачи.

Answer 2 · 2017-10-21 02:09:18

Dimonchik @dimonchik2013

non progredi est regredi

sphinxsearch faceted search ( есть и в эластике)

Питон

Ответ написан более трёх лет назад

Комментировать

Где искать информацию по интеллектуальному поиску?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт