• Как парсить почтовые адреса (своя реализация)?

    @Alexchexes Автор вопроса
    mayton2019, mayton2019, Хорошо, но это попозже, сейчас в роадмапе задача парсить и сопоставлять номера домов, пока они есть отдельным полем.
    из такого "70кЛИТАВЛД" делать "влд 70 литера А", например.

    Задача кстати похожая, даже попроще, базы не нужны. Но уже тоже пришёл к необходимости вычислять процент попадания, при сопоставлении двух номеров дома друг с другом, по нетривильной формуле ибо "1к1" может означать "1/1" и это должно иметь высокий % совпадения, тогда как "1а" и "1б" - очень низкий. А "1а\3стр4" и "1а\3стр5" - тоже высокий т.к. корпусом в такой детализации часто можно пренебречь.
  • Как парсить почтовые адреса (своя реализация)?

    @Alexchexes Автор вопроса
    mayton2019, да, от сторонних api хочется отойти, максимум использовать их как вспомогательные, поэтому и задаю здесь вопрос.
  • Как парсить почтовые адреса (своя реализация)?

    @Alexchexes Автор вопроса
    mayton2019, Да дело в том что задача-минимум уже реализована, не в части парсинга но в части обработки и стандартизации адресов: используется по api сервис созданный именно для этого. Но он, во-первых, кушает адреса только с максимум 1 ошибкой и если встречается "лишнее" слово он уже ничего не распознаёт ("Фёдора Тютчева" он не распознает если реальное написание "Ф. Тютчева"), а во вторых, он платный.

    Изначально этого хватало, но со временем накопились тысячи адресов для ручной проверки и исправления, при том что огромную часть уже исправляем по шаблону, вот и хотелось бы перед реализацией "правильного" решения, вычислить все pros & cons, и на опыте учесть все подводные камни перед тем как приступать. Вроде той же цифры "1".
  • Как парсить почтовые адреса (своя реализация)?

    @Alexchexes Автор вопроса
    mayton2019, а с токенами вроде просто цифры "1" как быть? Тоже теги для них? Ведь в некоторых городах есть улицы с названием "мкр 1", и в исходниках, которые надо разбирать, "мкр" часто отбрасывается, остаётся просто "1" и остальная часть адреса.
  • Как парсить почтовые адреса (своя реализация)?

    @Alexchexes Автор вопроса
    mayton2019, я тоже думал насчёт порядка слов, но проблема, как мне видится, в том, что название улицы может совпадать с названием одного из городов или областей (Карачаево-Черкесская Респ. и ул. Черкесская в Нижнем Новгороде).

    Проблему можно было бы решить, проверяя, осталось ли что-то, подходящее в качестве названия улицы в строке, после того как мы забрали слово "Черкесская" в название региона, но если у нас будет улица "Черкесская 1-я", мы забираем "Черкесская" в регион, то у нас может получиться что-то наподобие "Карачаево-Черкесская Респ, ..., ул 1-я" при некотором неблагоприятном совпадении лексем в исходной строке и существовании улицы типа "ул 1-я".

    Пока не придумал как с этим можно бороться.
    Если бы нужно было только реализовать подсказки, из которых человек вручную выбирает вариант, то подойдёт, а вот если хотим в автоматическом режиме справочник заполнять, это уже не вариант.
  • Как парсить почтовые адреса (своя реализация)?

    @Alexchexes Автор вопроса
    hint000, Да, и есть догадка, что без работы с полным справочником всех существующих адресов эту задачу не решить, т.к. используя только лишь свою неполную БД, о чём я писал в тексте вопроса, и нечёткий поиск, невозможно понять - нужный вариант действительно тот который имеется в виду, или он просто самый приближённый из тех, что мы храним у себя, а в полной базе адресов существуют более точные совпадения...

    И нет даже ориентира, от чего отталкиваться чтобы понять, надо ли обращаться к полной базе, или же всё успешно найдено только по нашей БД. Я прав?
  • Как парсить почтовые адреса (своя реализация)?

    @Alexchexes Автор вопроса
    hint000, спасибо, навели на некоторые мысли.
    Если больше одного...
    Вот этим моментом особенно, видимо нужно формировать набор предполагаемых вариантов, после чего уже далее по каким-то критериям сравнивать вероятность того, что же из них имеется в виду. Ведь например "массив" может встречаться как в названии улицы, так и в названии нас. пункта (пример г Воронеж, Жилой массив Олимпийский - числится в ФИАСе как населённый пункт внутри Воронежа)

    Да и не надо сразу искать дом ... надо сначала определиться с населённым пунктом

    Да, так и размышляю, вот видимо нужно по иерархии идти и складывать варианты, уже потом из них выбирать.

    Проблема например такая: входная строка "снт ижсталь 1 2", и у нас действительно есть "СНТ Ижсталь-1-2", и есть "СНТ Ижсталь-1", но адрес предполагает наличие дома, так что выбрать нам надо "СНТ Ижсталь-1", и дом - 2, а не "СНТ Ижсталь-1-2" без дома.

    Это ведь на уровне БД уже не сделать, видимо, и всю логику в приложении нужно запиливать, я правильно мыслю?
  • Как парсить почтовые адреса (своя реализация)?

    @Alexchexes Автор вопроса
    hint000, безусловно, нечёткий поиск здесь понадобится. Вопрос как корректно определять, что входная строка подразумевает адрес "СНТ Ижсталь-1-2" а не "СНТ Ижсталь, д 1 к 2", к примеру, т.е. в первую очередь искать совпадения по населённым пунктам, улицам, а уже потом вторым заходом - по домам.

    Задаюсь вопросом, как всё это правильно делать
  • Как перенести фото, если iPhone завис на этапе загрузки (яблоко), и нет резервной копии?

    @Alexchexes Автор вопроса
    В сервисе же не магия используется, тоже какой-то софт специализированный? На этом ресурсе задан вопрос, т.к. предположил что люди разбираются и могут подсказать с помощью чего восстанавливают данные в сервисах.
  • Как перенести фото, если iPhone завис на этапе загрузки (яблоко), и нет резервной копии?

    @Alexchexes Автор вопроса
    Также она не обещает, что вы не скачаете полную версию с торрентов абсолютно бесплатно

    На торрентах есть только версия под OS X, под Windows не нашёл. Если вдруг знаете, поделитесь ссылкой или хотя бы наводкой?
  • Как сделать чтобы высота рассчитывалась не по размеру окна браузера, а по высоте родительского элемента div?

    @Alexchexes Автор вопроса
    Не, не то, с css я возился долго и безрезультатно, пробовал и relative, и inherit, и значения свойства height как только не менял, в общем, по всякому, не помогает. Потом порылся в js и понял что дело именно в нём.
  • Хороший торрент-трекер (eng, ru)?

    @Alexchexes
    на нём новые игрушки и фильмы нельзя выкладывать
  • Что нужно знать и уметь веб-дизайнеру в современном мире?

    @Alexchexes Автор вопроса
    Спасибо за оригинальную мысль :) Стоит подумать над этим.