Ну если это будет web (django например), то лучше уметь самому накидать по быстрому формочек, а не ждать верстальщика. Прям круто верстать не нужно уметь, если не собираетесь становиться full stack разрабом.
На основе предложенного выше варианта, подумалось, что можно обернуть каждую картинку в <div> и задать диву высоту большей из картинок. Таким образом, мы не трогаем оригинальный размер картинок и при этом получаем baseline для текста.