> Чтобы окончательно не погрязнуть и совершенствовать навыки ищу open source проект, в котором можно было бы получить навыки в следующих областях: multithreading, highload, network programming.
> Так же интересуюсь различными сложными алгоритмическими задачами в областях поиска, сбора и анализа информации.
Отлично, напишите Open-source модуль для фасеточного (или как это там называется?) многокритериального поиска. Чтобы, например, с его помощью можно было сделать поиск по характеристикам товаров, как в Яндекс-маркете, или как по людям вконтакте. Данные поисковый демон может как сам брать из MySQL, так и принимать в Xml формате. Демон должен искать по миллионам записей в предельно краткое время. Слабо?
Простая задача? Сделайте то же, но с возможностью масштабирования на несколько узлов.
Кстати, для его реализации вам может помочь изучение интересных, но сложных техник: многомерных бинарных деревьев и кластеризации данных.
По поводу работы с текстом — тоже есть задача. Добавьте в Sphinx средство для поиска слов с типичными опечатками (например, башеный кран вместо башенный), неправильно написанных составных слов (патч-корд и патчкорд), и всяких артикулов/идентификаторов (например, при поиске RS232 находится и RS-232 и RS 232).
Третья задача. Бесплатный Open Source модуль склонения слов, имен, городов и словочоетаний. Чтобы например, из слов «башенный кран» можно было сгенерировать падеж: «о башенных кранах». Чтобы он был на Си++, не тормозил и не жрал память как бешеный.