В любом случае, понимаете что ценность такого произведения будет ниже любой оценки.
Если вам сильно нужна поздравительная песня к юбилею - то этот метод вполне прокатит.
Ratenti, это зависит от скорости репликации DNS. Обычно регистрация идет сутки.
Спамер регистрирует домен. Домен начинает через сутки слать спам. Еще я-бы дал
пару дней на детектирование этого домена как спамного. И после этого можно
банить. Разумеется все эти сроки я придумал. Никто не знает по факту сколько
это работает. Поэтому - эвристика. Думайте сами. Тут опыт подскажет а не теория.
Я не вижу факта использования селениума. У тебя должно быть
WebDriver driver = new ChromeDriver();
try {
// Navigate to the desired website (GeeksforGeeks in this example)
driver.get("https://www.geeksforgeeks.org/");
И объект документа ты должен получать через драйвер.
Juchok, ну вот представь. Пришли в ЗАГС молодые люди. Парень с девушкой.
И с пылкой стратью воспылав друг к другу - требуют срочно их расписать.
Опытная чиновница ЗАГСа им говорит:
- Пишите заявление. И завтра распишем.
Молодые - протестуют.
- Мы согласны сегодня. Чего терпеть.
Чиновница улыбается. Она то знает. Велик шанс что завтра в слезах прибежит молодая и заберет
и порвёт заявление. Просто .... союз двух сердец еще не настоялся.
Вот и в твоей задаче. Почтовый домен - слишком свеж. Ему надо дать время...
brar, да. Я думаю что 5000 и 400 комментариев - нормалная выборка чтоб начать анализ.
По поводу 20 го века. Я помню очень шумная история с писателем Шолоховым и Солженицыным,
когда последний усомнился в авторстве Тихого Дона и утверждал что Шолохов не писал произведение.
Было несколько исследований на эту тему. Исследовали методами доступными тогда методами.
И авторство Шолохова было подтверждено. Но методы, понятное дело были более простые.
Я не уверен что использовали TF-IDF. Или векторизировали. Возможно даже литературные
критики и филологи садились и просто вычитывали текст и подсчитывали для себя какие-то
филологические формы.
Я же говорю. Это в первую очередь - терминологический спор. Тут нужна англоязычная
статья где термин раскрывается и потом уже можно обсуждать недостатки алгоритма.
Это как математика. Мы говорим допустим f(x) такая функция что... ит.д.
Это как бесконечные терминологические игры с потоком и нитью (thread, stream).
Их путают авторы статей. Разработчики и .. преподаватели.
Это сложно. И методов матчинга наверное очень много. Мне вспоминается сериал "Охота на унабомбера".
Вобщем там террорист был пойман по такой зацепке. Он по молодости создал студенческий
манифест, где написал пословицу с ошибкой. Впоследствии эта ошибка позволила профайлерам
ФБР найти соотвествие между посланиями анонимоса и этого студента.
Возможно. Давайте оставаться в контексте экспертов которые просто отвечают на вопрос и дают советы.
Я не осуждаю людей за Kali Linux, но я осуждаю за непрофесиионализм и шапкозакидательство.
Свойства сохранения или показывания неизвестных типов файлов - сервер никак не регулирует.
Это чисто браузер решает что делать с responce на основании mime-type. Подозреваю что сервер
просто не заполняет в заголовке поле mime-type и поэтому браузер не знает как его отобразить.
И предполагает что это неизвестный бинарник. Еще вариант - слишком новый и никому не известный
mime-type. Экзотический формат картинки или видео. Или легаси.