примерно так и подступайтесь - стройте поиск названия, потом поиск упаковки, потом количества и измерений
название, скорее всего, почти всегда легко
затем в паре с ним легко классиицировать цифру (ящики это или штуки или упаковки)
некоторыми функциями можно выполнить предподготовку ("ц" не входит в ящик и упаковку и т.п.)
дальше определить какие содержат все компоненты , а какие нет
ну и посмотрите на нынешний алгоритм, может, проще его оптимизировать
посомтрите Тамита парсер (хз как он для такого, но там можно строить свое)