https://github.com/checkcheckzz/python-github-proj...
сама тема необъятная, начните, например, с
www.clips.ua.ac.be/pages/pattern
конечно же, классическая книга
shop.oreilly.com/product/9780596516499.do
ну и куча книг по NLTK до кучи
ну и, если зарыться в теорию (тут огромный подбор материала по всему), конечно же
www.dialektika.com/books/978-5-8459-1623-5.html
она же
www-nlp.stanford.edu/IR-book
но я бы сделал проще: засунул все в индекс, например, Sphinxsearch илиElasticSearch ( прожорливее) и приловчился возвращать результаты по релевантности