Есть очень неплохой
курс по machine learning от andrew ng, одного из основателей coursera. Курс очень полезен целиком, особенно 10 часть, "Advice for Applying Machine Learning" (там, кстати, обсуждается необходимый объём), а проблеме получения обучающей выборки посвящена
эта лекция.