Отбой. Если кому интересно Яндекс некоторое время назад опубликовал исходные тексты tomita парсера (
github.com/yandex/tomita-parser). Надо признать кода очень много и изучить его работы изнутри будет достаточно интересно, но касательно заданного вопроса вывод такой: используются данные из mystem и достаточно большое кол-во правил (код на C++).