Какие нейросети имеют доступ к страницам сайте в интернете?

Question

weranda @weranda

Нейронные сети

Какие нейросети имеют доступ к страницам сайте в интернете?

Приветствую.
Попытался несколькими доступными нейросетями получить доступ к страницам сайтам — почти никто не может этого (из того, что мне удалось попробовать). Хотел скормить нейросети несколько страниц сайтов по ссылке для анализа — тщетно. Можно было бы скачать код этих страниц и скормить их сети, но этот код буквально не влезет им на вход из-за большого количества символов.
Мысль такая: дать нейросети n-страниц на вход, попросить проанализировать и выдать объективные данные. К примеру, выделить контент со всех страниц и скомпоновать в один; выделить какие-то основные части; рассказать, где лучше, хуже и т. п.
Что посоветуете?

P.S.
Попробовал Copilot — такой бред выдает. Наверное, еще рано к ним за таким обращаться?!

Вопрос задан более года назад
3020 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science плюс

17 месяцев

Далее
Нетология

Бизнес-аналитик

7 месяцев

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Системное администрирование

+2 ещё

Средний
Сервер с GPU предназначен ли для запуска фронтенда/бэкенда или он для вычислений?
- 1 подписчик
- 08 нояб.
- 270 просмотров
1

ответ
Нейронные сети

Простой
Как работать с планами в CursorAi?
- 2 подписчика
- 26 окт.
- 123 просмотра
1

ответ
Нейронные сети

Простой
Как надиктовывать текст голосом в Cursor?
- 1 подписчик
- 24 окт.
- 98 просмотров
1

ответ
Нейронные сети

Средний
Имеют ли нейросети или надстройки над ними возможность анализа «полноты» вопроса?
- 1 подписчик
- 23 окт.
- 87 просмотров
2

ответа
Нейронные сети

Сложный
Как организовать разбивку по таймкодам текста из 30000 слов?
- 1 подписчик
- 18 окт.
- 72 просмотра
0

ответов
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 98 просмотров
1

ответ
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент.
- 84 просмотра
1

ответ
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1414 просмотров
5

ответов
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 262 просмотра
4

ответа
Нейронные сети

Простой
Какая AI модель дешевле в пересчете на решение задачи в программировании?
- 1 подписчик
- 21 сент.
- 279 просмотров
3

ответа
Показать ещё Загружается…

Инженер станционного оборудования

Ростелеком • Можга

от 59 270 до 59 270 ₽

Руководитель проекта по системам мультимедиа

PRIDEX Group • Москва

от 270 000 ₽

QA Engineer

EarnPark

от 1 500 $

Answer 1 · 2024-04-20 17:46:22

Ни одна нейросеть на базе gpt не умеет напрямую работать со страницами в интернете.

Нужна прослойка, которая, во первых, преобразует страницу в текст (это не так просто как кажется, нужно выделить на странице контент, точнее его группы (информационные блоки), понять где реклама, где навигация а где дизайнерский мусор, отличный пример - страница ozon, 90% экрана абсолютно бесполезный мусор, рекомендации (далекие от того что нужно покупателю), проплаченные карточки и т.п. найти среди этого хлама нужную информацию не просто. Плюс все это формируется в процессе, двигая элементы интерфейса туда сюда... работать с этим адом очень и очень не просто, особенно когда разработчики старательно сопротивляются любой автоматизации.

Мультимодальные сети (кстати, нормальных не существует, даже от openai слабовата, но она лучшая из универсальных) по уму должны уметь работать с веб-страницей как изображение, советую опробовать это самостоятельно на своих задачах, но не уверен что из этого можно получить что то стоящее. Такие сети могут получать изображения в качестве входа, а дальше позволяют вести текстовую беседу, учитывая их как часть контекста.

И главная проблема - ограничения на размер контекста. Большие объемы текста тупо не помещаются 4к..8к токенов это тот объем, в пределах которого сети работают хорошо, но чем больше размер контекста (даже если заявлены 16к или 32к) начинаются борьба компромисов, качества и стоимости. Может так получиться что вместо работы со всей информацией сразу, ее делят на части (еще одна проблема по анализу исходной страницы), а затем, набирая вопросы из текущего контекста (та еще задачка) задают их последовательно для каждой, собирая ответы в итоговый контекст и ее уже используют для дальнейшей беседы. Плюс есть еще алгоритмы саморизации. Плюс еще неплохо сюда multishot пристроить, с примерами.

На каждом этапе, возможно понадобится дообучать свои сети, а это значит собирать обучающую выборку с примерами, RLHF-ить на основе пользовательского опыта... и поддерживать это во времени, так как то что работает сегодня, завтра уже будет устаревшим.

В общем реализуете что то стоящее первыми, может даже озолотитесь, продавая готовое решение бизнесу.

Какие нейросети имеют доступ к страницам сайте в интернете?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт