Какой ЯП может быстро обрабатывать большие объемы информации?
Суть такова:
Есть база мэил адресов - 300 миллионов строк (в каждой строке 1 мэил). Есть вторая база мэил адресов - 10 тысяч строк (в каждой строке 1 мэил).
Нужно базу 10к сверить с базой 300кк и найти в 10к уникальные мэилы, которых нету в основной базе 300кк.
Какой ЯП больше всего подойдет для разработки такой программы.
Сравнение скоростей системных утилит mawk, nawk, gawk с ЯП Java, Python, Perl, C++, Ruby
Don’t MAWK AWK – the fastest and most elegant big data munging language! brenocon.com/blog/2009/09/dont-mawk-awk-the-fastes...
Если задача разовая, лучше всего пользоваться юниксовыми утилитами командной строки.
Если нужно сравнивать всю строку - fgrep работает быстрее чем grep.
Если нужно сравнивать большие списки - лучше comm я не знаю.