В-нулевых, вы померили стартап, компиляцию и поднятие потоков в FJP, с чем вас и поздравляю.
Во-первых, сделайте уход в секвенциальную версию, начиная с некоторого маленького threshold'а. Иначе накладные расходы на распиливание и менеджмент задач всё сожрут.
Во-вторых, способа джойнить хуже, чем «t1.fork(); t2.fork(); t1.join(); t2.join()» не придумаешь. Лучший из известных способов делает «t1.fork(); t2.compute(); t1.join()».