Я бы, наверное, сперва попробовал выделить обвязку страниц. Т. е. взять несколько страниц сайта и определить на них повторяющийся текст. А дальше уже эмпирически подбирать правила для разбора получившегося. Например, часто название компании идет после или перед ©, часто оно упоминается в тайтле, часто перед ним идут слова "компания", "ООО" и т. п.