Как сделать систему поиска не легального контента?
Хочу автоматизировать поиск не легального размещения контента. Собираю базу сайтов и способов подачи заявок на удаление контента. Вот хотел посоветоваться, есть может быть что-то на основе чего можно было бы это сделать и какой язык подошёл бы для этого лучше на Ваш взгляд. Пока рассматриваю Nginx+NodeJS+Mysql.
Будет интересно услышать разные мнения.
Всем спасибо за потраченное время.
Кому не сложно поправьте теги как Вы считаете правильнее.
Djamal Nasrutdinov, мне показалось что я достаточно подробно описал. Ну повторюсь. Автоматизировать нужно поиск не легального контента по базе сайтов и полуавтоматизировать составление запроса на его удаление.
Самое ресурсоемкая задача - это получение дом и анализ контента. Я думаю надо вначале определиться с алгоритмом этого анализа, а потом выбирать язык.
PHP Simple HTML DOM Parser - очень удобная и очень медленная штука. Быстрее будут регулярные выражения, но хз подойдут ли они под Ваш алгоритм. Так что Вы не стой стороны начали. Вначале определите как Вы планирует определять "не легальность".