Как скачать целую ветку форума 4pda и скормить нейросети?

Question

YX1978 @YX1978

Как скачать целую ветку форума 4pda и скормить нейросети?

В особо развитых ветках 4pda очень сложно ориентироваться, многие выводы можно сформулировать только прочитав 100+ страниц. При этом многое пропускается и незамечается. Как скопировать ветку или несколько веток связанных с определёнными темами, чтобы потом с помощью нейросети (chatgpt/gemini/claude) составить полную картину?

Вопрос задан более года назад
1450 просмотров

2 комментария

Подписаться 5 Простой 2 комментария

Решения вопроса 1

10 комментариев

maksam07 @maksam07

По секрету говоря, эффективнее брать "текстовую версию" форума

Написано более года назад
rPman @rPman

maksam07, а я и забыл про него
формально, если бы нужен не весь пост, можно бы было пользоваться rss, там последние 25 постов будут, но увеличить этот лимит не получится не будучи владельцем сервера

Написано более года назад
maksam07 @maksam07

rPman,
Как скачать целую ветку форума

Автора вряд ли интересует первые 25 постов. Да и смысла в этом на самом деле нет - их и самому прочитать несколько минут дела

Написано более года назад
d'Ivan @2ord

maksam07,

Автора вряд ли интересует первые 25 постов

в форуме обычно представлено множество ответов от "экспертов". И среди последних не факт, что существует консенсус в диагнозе проблемы и путей решения.
Если очередной "эксперт" напишет что-то толковое по делу вопроса на 51-й странице, его ответ попросту могут не заметить и не обратят на него внимания. А если сделать краткое подытоживание (summarization) мнений, то может оказаться, что мнение будет таки замечено и даже использовано в качестве решения. В случае с мобильными телефонами люди порой пробуют любые варианты, даже если есть малейший шанс удачи.

По секрету говоря, эффективнее брать "текстовую версию" форума

Согласен по предложению rPman по поводу фильтрации текста:

можешь сложнее структуру сообщения анализировать, выявляя цитирования и к примеру исключая их из текста (они занимают большую часть всего, дублируя многократно информацию).

Надо убедиться, что в текстовом формате возможно однозначно вычленить повторения.

Написано более года назад
rPman @rPman

Everything_is_not_so_bad, не надо разбирать итоговый текст, там цитирование по html легко выявляется, можно вместо всего текста цитаты оставить только никнейм автора и несколько слов из начала и конца с троеточием по середине

собственно если организовать весь текст как чат ник: текст и ник: @ник, текст, никак не разделяя на посты (так как один пост может содержать ответы нескольким участникам), можно еще разделитель между сообщениями придумать, так как сообщения многострочные, то мне кажется это будет наилучший способ представления данных gpt

p.s. тут же можно и картинки в контекст закидывать, прямо ссылками, openai например умеет так.

Написано более года назад
d'Ivan @2ord
по-моему, для GPT ответы автором стоит обрамлять XML тегами, скажем так:

@авторXYZ написал (в ответ к посту ABC): <text> тут весь пост, включая разметку и код </text>

Поэтому имея HTML, можно однозначно знать кто есть кто, а не угадывать.
Написано более года назад
rPman @rPman
Everything_is_not_so_bad, мне показалось что gpt одинаково хорошо обрабатывает обрамление как html тегами так и визуальными типа

=== answer of user @username === === end of answer ===

т.е. для него это почти равнозначно

мало того, если скармливать ему буквально json, то качество ответа не изменится, а там формат строже.
Написано более года назад
d-stream @d-stream

RSS ещё как вариант
Текстовая (для поисковиков изначально) - скудновата в плане вложений

Написано более года назад
Zettabyte @Zettabyte
rPman, Добрый день, нашёл этот ваш не самый свежий ответ, если не затруднит, подскажите пожалуйста, что означает вот эта конструкция:

foreach($html->find('div[class]:not([class=""]') as $post)
?

Я изучил те доки, которые находятся в гугле, но остались непонятны: сдвоенная запись, двоеточие между её половинами, оператор "not" (его вообще не видел ни в одном мануале, ни в сторонних примерах), нечётное кол-во круглых скобок (хотя это может быть и опечатка).

Если ответ можно найти по какой-либо ссылке, думаю, что её будет достаточно.
Написано более года назад
rPman @rPman

https://developer.mozilla.org/ru/docs/Web/CSS/:not

В коде скобку не закрыл, сейчас не могу проверить но скорее всего парсер simple html dom на такую ошибку не обращает внимание

Написано более года назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Android

+2 ещё

Простой
Какая программа подходит для озвучки текста на андроиде?
- 3 подписчика
- 17 мая
- 265 просмотров
2

ответа
Нейронные сети

Простой
Есть ли нейросети для интерактивной работы с изображениями?
- 2 подписчика
- 13 мая
- 238 просмотров
2

ответа
Программное обеспечение и интернет-сервисы

Простой
ФЗ №149 как быть?
- 2 подписчика
- 12 мая
- 545 просмотров
1

ответ
Компьютерные сети

+1 ещё

Простой
Не работают стримы на твич, что делать?
- 1 подписчик
- 10 мая
- 600 просмотров
1

ответ
Боты

+1 ещё

Простой
Какие посоветуете лучшие доступные LLM, для организации на её базе офисного бота?
- 2 подписчика
- 06 мая
- 333 просмотра
5

ответов
Программное обеспечение и интернет-сервисы

Простой
Какие есть сервисы для «вытягивания» слов из аудио и видео файлов?
- 1 подписчик
- 04 мая
- 163 просмотра
3

ответа
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Какое программное обеспечение для этого надо использовать для передачи файлов с чувствительными данными?
- 1 подписчик
- 03 мая
- 254 просмотра
4

ответа
Chrome

+2 ещё

Простой
Какие есть RSS клиенты с уведомлением о новом контенте?
- 1 подписчик
- 01 мая
- 136 просмотров
2

ответа
Программное обеспечение и интернет-сервисы

Средний
Duolingo сайт не загружается. Надо DNS настроить?
- 1 подписчик
- 29 апр.
- 212 просмотров
1

ответ
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 214 просмотров
1

ответ
Показать ещё Загружается…

1. Парсите парсером
2. Анализируете анализатором (chatgpt/gemini/claude)
Очевидно, что в данной задаче есть две подзадачи, как и указано в комментарии maksam07
Что было испробовано до сих пор?

Answer 1 · 2024-06-08 09:53:30

4pda основан на ip.board, все загружается без танцев с бубном, только осторожно, без авторизации получаются другие страницы чуть в ином формате. Вот пример кода на основе simple_html_dom:

<?php
include('simple_html_dom.php');

// ссылка на первую страницу темы
define('START_URL','https://4pda.to/forum/index.php?showtopic=1084129');
// количество страниц &st= из ссылки » в навигаторе по страницам
define('PAGES_CNT',580);

@mkdir('data');

for($i=0;$i<=PAGES_CNT;$i+=20)
{
	// формируем url
	$url=START_URL.($i==0?'':'&st='.$i);
	// имя кеш файла чтобы не загружать повторно
	$cache_fn='data/'.md5(START_URL).'.'.$i.'.html';
	if(!file_exists($cache_fn))
	{
		// Загружаем страницу
		$data=file_get_contents($url);
		// сохраняем страницу в кеше
		file_put_contents($cache_fn,$data);
		// пауза между запросами к серверу для защиты его от ddos
		sleep(1);
	} else
	{
		// читаем из кеша
		$data=file_get_contents($cache_fn);
	}

	$html=str_get_html($data);
	$num=0;
	foreach($html->find('div[class]:not([class=""]') as $post)
	{ // перебираем посты в теме
		// пропускаем первый пост темы, он дублируется на каждой странице
		if($num++==0) continue;
		// выводим пост на экран
		$post_html=$post->find('div.post_body',0)->text();
		echo $post_html.PHP_EOL;
	}
	// вставляем разделитель между постами
	echo '<hr/>'.PHP_EOL;
	$html->clear();
}
?>

вернет на экран посты указанные в START_URL, мне лень было вычислять конец треда автоматически, бери количество постов вручную из навигатора постов.

Страницы можешь вручную указать for($i=0;$i<=PAGES_CNT;$i+=20) вместо 0 - начальный (с шагом 20) и PAGES_CNT конечный пост.

Вместо текстового представления $post_html=$post->find('div.post_body',0)->text(); можешь сложнее структуру сообщения анализировать, выявляя цитирования и к примеру исключая их из текста (они занимают большую часть всего, дублируя многократно информацию).

Конкретно этот пример не влезет в контекстное окно бесплатного claude - это 70к токенов. Поэтому дели на куски.

Как скачать целую ветку форума 4pda и скормить нейросети?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт