Реально ли выполнить данное тз средствами веб языков?
Существует множество прайс-листов.
Часть из них имеет более менее структурированный вид в XLS с разбиением на категории, типы, цвета и тд.
Большая же часть прайсов (90%) записаны в произвольной форме, чуть ли не в txt.
Они тоже имеют какое то более менее разбиение по строкам, с выделением жирным шрифтом названий и тд, но оно понятно сугубо на уровне чтения человеком, а не машиной.
Возможно ли создать какой то универсальный парсер для разных типов данных, который бы приводил все это месиво в стандартизированный вид? Или это в принципе нереально сделать с использованием веб языков?
Проскакивали идеи по поводу использования Томита, но он не совсем подходит под данную задачу.
Вопрос сам по себе расплывчатый, тк я до конца сам не понимаю с той ли стороны я подошел к задаче.
Какая разница какой язык? Чисто технически то, что можно сделать на C, Java, PHP можно так же сделать на Brainfuck.
Любой полноценный веб-язык способен такое сделать, вопрос сам по себе не имеет смысла в принципе, к тому же ответ на него вам по сути ничего не даст, а исходя из постановки вопроса - тем более...
Человекочитаемый вид предполагает какую-то группировку слов и чисел, выделение заголовков категорий, еще какой-то критерий разделения. Так что можно делать разбивку прямо так, как видят глаза. Выделить один тип слов и словосочетаний, потом другой, учитывать какие-нибудь ключевые слова, даже количество переносов можно считать. Группы слов с описанием позиций прайс-листа явно будут с указанием цены — а это самый верный разделитель.
В принципе, распарсить прайс-листы реально. Главное, чтобы их писали адекватные люди.
А "вебнутость" языков программирования не имеет значения.
SalatProduction:
>Люди очень неадекватные
Всякий раз, когда в голову приходят подобные мысли, то стоит подумать в первую очередь о собственной адекватности.
Если бы было можно написать программное обучение чему-либо, уже бы было куча искуственного интеллекта, но до сих пор все самообучающие алгоритмы проходят под строгим контролем, и никак иначе. Автоматическое обучение - нереально, оно ВСЕГДА будет допускать ошибки, и следовательно требовать доработку.
Проще для каждого отдельного прайса написать свой парсер, а вот это может сделать даже низкоквалифицированный специалист на любом языке программирования.
Это возможно реализовать на веб-языках теоретически.
На практике это будет стоить тысячи долларов и целая команда разработчиков, которые имеют огромный опыт в создании нейронных сетей.
Так что нужно какой-то общий формат или заказывать ручную работу человека со всяческой удобной оптимизацией работы.
SalatProduction: Перед тем как писать программный продукт, следует выяснить насколько это реально в данной области.
В некоторых странах, например, пришли к единому формату прайсов, потому что поняли, что это выгоднее всем.
В других странах, существуют целые компании, которые именно этим занимаются - скачивают прайслисты и перерабатывают их в свой внутренний единый формат. Причем компании за это еще и платят, чтобы получить назад аналитику по прайсам конкурентов и некоторой статистике. Можете поискать готовую компанию в вашей области или создать новый бизнес.
Ответ на этот вопрос модно дать лишь после уточнения цели. Здесь, как говориться, цель оправдывает средства... Или не оправдывает) а так, запрограммировать можно все.