myfirepukan Я про curl ничего и не говорил) Нет такого) По неопытности не знаю, зачем она нужна. В данном случае все работает и так. Если объясните, буду признателен. Использую simple html dom.
myfirepukan: Ок! Спс! Попробую. Но вот только смогу ли я в один файл записывать одновременно из эти пяти файлов? Коль уж ты такой отзывчивый, мб ответишь еще на пару вопросов?)) 1) Нужно результат парсинга записывать в csv (ну или xls). Первая строка - заголовки, остальное собственно результаты. Что предпочтительнее и более гибко? Для csv вроде есть встроенные функции типа fputcsv, но зато без BOM нужной кодировки я не добился. 2) Как лучше парсить картинки? Какой функцией сохранять себе в папку?
xuxubla: поставь в первом файле в начале sleep(0) во втором sleep(10) в третьем 20 и т.д. и тогда все они смогут писать в один файл. В CSV формате сильно не разбираюсь. Картинки слышал file_get_contents можно как-то забирать но сам не пробовал
sbh: myfirepukan: ну а вообще, такая длительность для 25000 страниц, загружаемых последовательно, адекватна? Просто чтобы понять, искать мне где-то косяк или не искать? Насчет картинок да, file_get_contents() это понятно) А вот само сохранение? Вероятно copy()?
Артур Нуруллин: сами своему совету последуйте.
большинство времени при парсинге в основном уходит на получение данных, а не на обработку.
а теперь вопрос, если переписать это на .net и получать данные в один поток (а именно так сейчас он делает, хотя в PHP есть возможность получать их в несколько потоков), ему это сильно поможет?
DevMan: зачем же в 1-м потоке, я и предусматривал многопоточный парсинг.
Своему совету я последую и будет все гут =), к тому же php никогда не поддерживал многопоточность, там это костылями делается
Артур Нуруллин: затем, что в PHP есть возможность (и я об этом сказал) получать данные параллельно без всяких костылей штатными средствами, но автор этого не делает.
поверьте, я это пишу не в защиту пыха (если гляните коменты к моему ответу, то я предлагал такой же вариант).