• Как вычленить из текста ФИО на python, при том что конкретных шаблонов нет?

    trapwalker
    @trapwalker Куратор тега Python
    Программист, энтузиаст
    В общем случае эта задача не решается на 100% по определению.
    Вы говорите, что вокруг фамилий у вас произвольный текст, а это значит, что среди этого текста попадаются слова, которые чем-то похожи на ФИО, но не ФИО, или имя отчество, без фамилии, или что-то вроде "светкин василёк Игоревич". Можно это считать таким экзотическим ФИО, или отчество тут просто отдельно стоит и искать его не надо?
    В любом случае схема решения примерно такая. Если у вас есть знаки препинания, то можно разбить по ним фрагменты текста, ФИО не разделяется знаками препинания (кроме дефиса), но дефис отличается от тире пробелами по бокам.
    Далее у вас есть цепочки слов. Если в цепочке N слов, то в ней, можно сказать, N-2 кандидата на ФИО.
    Каждая трока-кандидат на ФИО может быть проклассифицирована по ряду признаков, свидетельствующих в пользу того, является ли эта тройка ФИО. Осталось только определить набор признаков и веса этих признаков. Каждый признак определяет два показателя: 1) насколько этот признак добавляет шансов тройке быть ФИО; 2) на сколько несовпадение по этому признаку отнимает шансов быть ФИО. Показатели определяются от нуля до 1 и перемножаются. Подбор признаков и их показателей будет настройкой вашего классификатора.
    Тут дальше можно двигаться разными путями.
    Часть детектов вы сможете надёжно определять по окончанию отчества.
    Часть признаков у вас будут словарными словами, которые, по вашему, не могут быть именем и\или фамилией.
    На этом этапе уже будет довольно хорошая детекция. Вопрос что вам важнее, отсутствие false positive, или отсутствие false negative.
    Так же по-разному может повезти с входными данными. Если у вас много "ловушек" в виде разбросанных по тексту бесхозных отчеств, если у вас много очень странных имён... в общем тут вам никто не выдаст идеальное решение. При отсутствии четкого ТЗ результатом будет расплывчатое ХЗ.
    В целом обычно на настройку таких классификаторов под текст на первое время сажают людей. У нас сейчас есть ChatGPT и ему, думаю, вполне можно скидывать наборы имён, чтобы он вычеркивал те, которые вряд ли именами являются. Если вы приняли, что какое-то слово не может являться именем, или фамилией, то такое решение хорошо бы кэшировать, а затем для консистентности придерживаться аналогичного в других случаях.

    Странная у вас задача, сударь. Выглядит как учебная. В этом случае рассуждений вроде приведенных мной здесь хватило бы для успешного ответа на собеседовании.
    Ответ написан
    2 комментария
  • Что нужно знать junior php backend разработчику?

    Mike_Ro
    @Mike_Ro
    Python, JS, WordPress, SEO, Bots, Adversting
    Что нужно знать junior php backend разработчику?

    То, что указано у заказчика в ТЗ или в вакансии.
    Всем найденным ответам на этом ресурсе - больше 3 лет, возможно уже ситуация заметно изменилась.

    Не изменилась.
    помогите пожалуйста сориентироваться и понять с чего начать и в каком порядке изучать.

    С формулирования более конкретных вопросов.
    Ответ написан
    Комментировать
  • Какие есть хостинги для размещения VK бота?

    alexey-m-ukolov
    @alexey-m-ukolov Куратор тега Веб-разработка
    Скорее всего, вам не удастся найти хостинг, на котором уже всё настроено. Вместо этого нужно взять в аренду VPS и установить туда python и mysql самостоятельно (есть море инструкций).
    Ответ написан
    Комментировать
  • Можно ли использовать экран от ноутбука для другого ноутбука?

    @Voland69
    Короткий ответ - нельзя.
    Чуть более длинный - в ноутбуках что HDMI, что VGA - выход для подключения внешнего монитора, а не вход для видеосигнала.
    Ответ написан
    2 комментария
  • Какую технологию выбрать для выдачи результата по выбранным параметрам?

    @Refguser
    Решения для бизнеса: от создания ИМ до...
    Вопрос в том, какую технологию, библиотеки или алгоритмы выбрать под эту задачу?

    У тебя описан простой фильтр. Реализовывается на любой "технологии".
    Ответ написан
    5 комментариев
  • Автоматически увести пользователя из встроенного браузера приложения?

    Daemon23RUS
    @Daemon23RUS
    Написать Джану Имину в Beijing ByteDance Technology Co., Ltd Чтобы в следующем обновлении, для вашей ссылки сделали исключение и вопрос пользователю не задавали, а сразу перекидывали в браузер телефона.
    Ответ написан
    Комментировать
  • Хочу реализовать проект калькулятора подписок в валюте, с конвертацией валют из одной в другую; есть подводный камень. Как его решить?

    newross
    @newross
    Product owner
    Боюсь что ты решаешь задачу с не того конца.
    Курс ЦБРФ может быть один, но реальный курс зависит от банка и способа оплаты. Разница может доходить до 10%. Если включить случаи double-conversion, то ошибка может быть еще больше.

    Приходилось решать подобные задачи, когда простейшим случаем была покупка контента за AED, оплата его кэшем в EUR, с полседующей перепродажей через AmericanExpress в USD. Сумма с точностью до цента получается только постфактум. И далеко не всегда платежная система дает тебе полную раскладку по комиссиям и курсам.
    Ответ написан
    Комментировать
  • Хочу реализовать проект калькулятора подписок в валюте, с конвертацией валют из одной в другую; есть подводный камень. Как его решить?

    dimonchik2013
    @dimonchik2013
    non progredi est regredi
    1) https://www.cbr.ru/currency_base/
    2) учись , можешь ORM в помощь (это в Питоне), но можно и на сырую (RAW Data)
    поля там должны быть Decimal или Finance - не Float ни в коему случае, а лучше вообще INT и потом менять разряд
    3) опа! да ты и сам волокешь , я за Decimal
    4) ты не представляешь глубину и сложность вопроса, поверь ... бухгалтера засовывают язык в жопу при попытке конкретики. Ну что тебе скажу - один из бух метдов по GAAP / МФСО - тупо курс на 31.12. года и учет остатков в нем...
    как сделаешь так сделаешь - считай на конец периода, или на максимуме. Короче , повторю, проблема непроста:
    можешь считать каждый день, но по итогу сумма у тебя не будет равная сумме в другой с каким-то коэффициентом. )))
    Если же это не касается бухучета - то есть строгости - можно счиатть как угодно )))
    5) запросы к базе фигня в сравнении с методолгией, повторюсь - единой нет, спроси целевого буха и делай как он скажет

    короче - начни считать каждый день - как ЦБРФ ставит курс на СЕГОДНЯ основываясь на ВЧЕРА, а там как пойдет...
    Ответ написан
    Комментировать
  • Что не так со спектром зеленых светодиодов?

    Daemon23RUS
    @Daemon23RUS
    Как вариант, на бытовые зеленые прожекторы поставить светофильтр LP-510 или один на камеру, если применимо в рамках решаемой задачи.
    Светофильтр LP-510
    655b5da37c7ae199971803.png
    Ответ написан
    2 комментария
  • Как вести два почти идентичных проекта?

    Mike_Ro
    @Mike_Ro
    Python, JS, WordPress, SEO, Bots, Adversting
    - Базовый репозиторий со всеми основными (одинаковыми) компонентами.
    - Ru репозиторий, который подключает основные компоненты + отдельно те, которые индивидуально под Ru сегмент.
    - En репозиторий, который подключает основные компоненты + отдельно те, которые индивидуально под En сегмент.

    Аналогично и микро сервисы я бы организовал.
    Ответ написан
    Комментировать
  • Как исключить вложенную папку из игнора?

    AlexMcArrow
    @AlexMcArrow
    Люблю РНР, да я такой!
    Не добавляется так как есть выше стоящее правило = * , которое уже игнорирует "всё"
    Если очень нужно добавить git add foldername -f с флагом -f = принудительно добавить
    Ответ написан
    3 комментария
  • Являются ли данные пользователя в теле сообщения сбором персональных данных?

    Mike_Ro
    @Mike_Ro
    Python, JS, WordPress, SEO, Bots, Adversting
    Эх, как не хочется становится оператором ПД ;)
    Попадают ли данные пользователя в теле сообщения сбором персональных данных?

    На основание 152-ФЗ от 27.07.2006, к персональным данным относятся:
    - фамилия, имя, отчество;
    - место, дата рождения;
    - место постоянной или временной регистрации;
    - фотография или видеозапись человека, позволяющие идентифицировать человека;
    - сведения о детях, родственниках, семейном положении;
    - сведения о заработной плате;
    - оценка навыков, личностных качеств;
    - индивидуальные личные данные (раса, национальность, политические или религиозные взгляды, философские убеждения; состояние здоровья);
    - информация о судимостях, или их отсутствии;
    - номер телефона, адрес электронной почты, иные идентификаторы в соц. сетях или мессенджерах;
    - паспортные данные, СНИЛС, ИНН (хотя с ИНН вопрос спорный);
    биометрические данные;
    - любые другие ПД, которые позволяют определить конкретного пользователя.
    а присутствует только поле для сообщения, куда пользователь в теле письма пишет свои данные для связи

    Если будет поле для комментариев, где будет сказано, чтобы люди не оставляли свои ПД (т.к. такие сообщения будут удаляться автоматически), то это не является ПД по умолчанию и по факту, т.к. сообщение будет удалено, ведь так...? ;)
    Я понимаю, что ситуация комичная и вопрос несколько тупой

    Не комичная, и не тупой - это реальность, и Вы либо соблюдаете закон, либо соблюдаете его в следующий раз (после уплаты соответствующего штрафа). Однако, Вы еще маркировкой рекламы не занимались, там вообще сок.
    Ответ написан
    5 комментариев
  • Возможно ли как-то использовать обычную функцию заместо макро-функции?

    Vindicar
    @Vindicar
    RTFM!
    bit_set() принимает аргумент по значению, т.е. принимает его копию. От того, что эта копия изменена внутри функции, снаружи ничего не поменяется. А раз других побочных эффектов у функции нет, компилятор удаляет её вызов.
    Макрос же после всех подстановок сделает просто присваивание указанной переменной. Тут побочный эффект есть.
    Ответ написан
    4 комментария
  • 2 SSD в ноутбуке?

    Daemon23RUS
    @Daemon23RUS
    Понятие системный диск -весьма условно.
    Я опишу реалии немного упрощенно, но это поможет понять как обстоят дела в реальности и принять верное для себя решение.
    Исходим из того, что SSD - расходный материал и срок его службы зависит от интенсивности использования (в основном при записи расходуется ресурс). Опустим модели и сроки службы.
    Теперь о ценности информации. Самое ценное - Ваши данные. Систему, программы, игры можно почти безболезненно переустановить на новый. Поэтому, вполне логично, интенсивно использовать системный диск, и быть готовым к его замене в случае выхода из строя, а свои данные хранить на 2м, в щадящем режиме. Это же касается и к вопросу, куда ставить игры. Одно из правил, не держите SSD диск почти полным, перезаписываемая область сокращается, ресурс ячеек на перезапись распределяется только на свободное пространство, а его мало и они чаще перезаписываются. Получаем неравномерный "износ" и более ранний выход из строя.
    Ответ написан
    5 комментариев
  • Как проверить скорость доступа к сети достоверно?

    @rPman
    Все ответы тут хорошие и правильный.

    На практике есть минимум три (для крупных стран типа России - четыре) границы измеренения скорости подключения к интернету:

    * Скорость до твоего провайдера
    Это та скорость, которую обеспечивает технология подключения, обычно это радиоканал (wifi/сотовая связь), медный или оптический кабель,

    Эту скорость тестировать с помощью speedtest.net выбрав своего провайдера в своем городе (скорее всего он будет выбран автоматически)

    Эта скорость определит максимальный предел скорости твоего подключения, т.е. быстрее не получится. Больше никакого смысла тестировать эту скорость не имеет смысла, за исключением ситуаций, когда ваш целевой сервер (до которого нужно мерять скорость) находится в датацентре вашего провайдера в идеале в тех же помещениях.

    * Скорость подключения твоего провайдера в городские линии связи и до других провайдеров в городе
    Очень не однозначый критерий, договоры подключения между провайдерами могут не работать на максимуме и иметь ограничения, но обычно там идет все по максимуму технологий, в россии типовые технологии подключения - медь по канализации (переделывают на оптику но это бесконечный процесс) поэтому 100-200мбит

    Чтобы протестировать эту скорость, нужно в speedtest.net выбирать разных провайдеров в твоем городе, если тебе действительно нужны цифры, советую протестировать все и записать

    Эта скорость значительно влияет на загрузку торрент файлов, мало того, если скорость подключения до провайдера большая (например 500мбит) а типовые скорости в городе 100мбит, то возможна ситуация что загрузка торент файлов будет на скорости - сумма скоростей подключения провайдера к другим провайдерам, с клиентов которых идет загрузка файла (т.е. к примеру у тебя в сети 3 провайдера, по 1 сидеру в каждом, каждый на 100мбит, значит качать ты будешь на 300мбит с высокими шансами, а это больше 30мбайт/сек, само собой итоговую скорость влияет очень много других факторов)

    * Скорость подключения твоего провайдера к линиям междугородней связи (по стране)
    Таких линий значительно меньше чем линий в городе, скорости меньше, но крупные провайдеры тянут, провайдеры по меньше арендуют чужие

    Эта скорость значительно зависит от времени дня (т.е. нагрузки от пользователей интернета в твоем городе и соседних, эксплуатирующих эту линию). Именно это требует от тебя проводить тесты в разное время (утро, день, вечер, ночь) и ты будешь получать очень разные числа.

    Тестируй speedtest.net выбирая своего и чужих провайдеров в других городах, где то по сети гуляла приблизительная карта магистральных линий по стране и между странами, я с ходу не нашел... я обычно смотрю сразу подключение до москвы/санкт-петербург

    * Скорость подключения в соседнюю страну и то как до целевого сервера идет подключение
    Почти то же самое что и предыдущий пункт, только речь идет о магистральных провайдерах между странами и океанами.

    Тут скорости как ни странно менее зависят от времени, наверное магистральные провайдеры делают запас по пропускной способности. Скорее всего часовые пояса имеют большое влияние на распределение нагрузки.

    Соответственно выбирай speedtest.net провайдеров в других странах, обычно достаточно выбрать на своем материке и на соседних типа сша/австралия
    -------------------

    Крупные сайты размещают свои сервера в датацентрах в узлах магистралей, а так же пользуются географически распределенным cdn (или просто ставят свои сервера по всему миру), именно чтобы разгрузить международные каналы и дать высокую отзывчивость.
    p.s. много ли cdn работают в пределах россии? почти наверняка все пойдет в москву/ссанкт-петербург

    Чтобы понять, по какому пути на текущий момент (это может меняться) пойдет соединение, используй команду mtr (это для linux, для win соответственно winmtr) которая покажет через какие узлы проходят пакеты, месторасположение самих узлов определяй по ip или по домену (страна будет понятна) там же видно пинг, величина которого покажет расстояние до узла
    Ответ написан
    1 комментарий
  • Как проверить скорость доступа к сети достоверно?

    ky0
    @ky0
    Миллиардер, филантроп, патологический лгун
    Достоверно можно померять не скорость "вообще", а скорость до определённой точки - да и то она может плавать исходя из загрузки каналов и изменений в маршрутизации. Оно вам надо?
    Ответ написан
    3 комментария
  • Как проверить скорость доступа к сети достоверно?

    Daemon23RUS
    @Daemon23RUS
    speedtest.net - чем не устроил ?
    2й вопрос это то, что Вы называете "скорость доступа к сети"
    Я приведу пример, например провайдер предоставляет вам 500Mbs, есть некий сервер, который отдает контент на скорости 1Gbs, предположим что 10 клиентов одномоментно получают контент, на каждого придется по 100Mbs, Ваш тест в этом случае покажет всего 100Mbs.
    Как я могу достоверно проверить скорость доступа к сети (скачка, отдача) на протяжении нужного мне времени, к примеру, минуты или часа?

    Попробуйте Iperf, но вам потребуется 2й сервер в сети (например VPS) с которым вы будете тестить скорость соедениния
    Ответ написан
    2 комментария
  • Зачем нужен интерфейс, если есть абстрактный класс?

    Adamos
    @Adamos
    Наоборот. Абстрактный класс имеет смысл использовать только тогда, когда не можешь обойтись интерфейсом.
    Однако "только начав изучать программирование", не стоит тратить время впустую на такие вопросы.
    Практика и опыт дадут на них ответ куда лучше, чем десяток отвечающих на Тостере.
    Ответ написан
    1 комментарий
  • Возможно ли получить tcp-сокет в C#-приложении? Или как узнать IP?

    tsklab
    @tsklab Куратор тега SQL Server
    Здесь отвечаю на вопросы.
    SELECT dc.session_id          AS [SPID],
           dc.client_net_address  AS [IP клиента],
           sp.hostname            AS [Имя PC клиента],
           dc.local_net_address   AS [IP подключения к серверу],
           dc.net_transport       AS [Протокол подключения],
           dc.local_tcp_port      AS [Порт],
           sp.[program_name]      AS [Имя программы],
           sp.loginame
      FROM sys.dm_exec_connections dc
        INNER JOIN MASTER.sys.sysprocesses sp ON dc.session_id = sp.spid
    Ответ написан
    Комментировать