• Почему не работает регулярное выражение?

    @Tamago4a Автор вопроса
    Сергей Паньков,
    Мне кажется вам рановато решать такие задачи
    Начну с того что я не программист, чтобы решать какие-то задачи. Я обычный пользователь ПК который шарит про IT чуть больше чем основная масса людей. Погуглив как пользоваться регулярками стало конечно яснее, но 100% просвещения я не получил. Пользуюсь я ими прямо в текстовом редакторе, а не в программировании.
    60a268d82497d938038217.png

    Вы не написали для чего вам это нужно.
    Писал но совсем немного
    И да... это база для брута handshake'ов.
    И уже из этого можно понять что
    не понимая как рабаотают регулярные выражения
    Правда какое это вообще имеет значение я не понимаю.

    Нафига всё лепить в один регексп мне не понятно.
    Я всего лишь хочу составить хороший алгоритм(регулярку) чтобы чистить базы для
    брута handshake'ов
    от мусора. Поэтому я зашел в интернет чтобы решить эту задачу с помощью понимающих больше меня в этом людей.

    Работайте в utf-8
    Не так то просто менять кодировку в файлах которые весят по 80 гб. Да и не помогло это.
    60a26ce506525174848940.png

    В вашем регэкспе подходящая конструкция встречалась, но, похоже вы этот регексп откуда-то срисовали или кто-то вам подсказал.
    Да. Я гуглил, копировал, и дорабатывал под себя.

    Вам же нужно более одного.
    Да. Это я и писал выше.
  • Почему не работает регулярное выражение?

    @Tamago4a Автор вопроса
    Сергей Паньков, продолжаю тему очистки базы от мусора.

    1. Теперь я пытаюсь избавиться от "не ascii" символов. Сделал замену [^\x00-\x7F]+ на пустоту но в базе всё равно остались какие-то непонятные символы.
    60a246101eb7c611148459.png
    Что с этим делать?

    2. Мне нужно удалить все табуляции и двойные(и бесконечные) пробелы, но \t* удаляет даже одиночные пробелы.

    3. Получился вот такой списочек
    [^\x00-\x7F]+
    ^(.{0,7})\r?\n
    ^([0-9]{8})\r?\n
    .*htt(p:|ps:).*\r?\n
    .*www\..*\r?\n
    .*htt(p:|ps:).*\r?\n
    .*mail.*\r?\n
    .*@.*\r?\n

    удаляющий все не ascii символы, строки короче 8 символов, строки содержащие http:, https:, www., mail, @;
    Пока что сюда не хватает фильтр на "квадраты", табуляции и бесконечные пробелы(одиночные не трогать). И всё это будет скреплено с помощью |

    Как всё это можно оптимизировать?

    4. И самое интересное для меня. В каком порядке всё будет работать если я всё скреплю с помощью |? Получается уберутся не ascii символы и в некоторых строках появятся числа состоящие из 8 цифр или строки с меньше чем 8 символов, а эта проверка уже перейдёт на новую строку. И получается нужно будет по несколько раз проверять документ? А если я помещу [^\x00-\x7F]+ в конец регулярного выражения, то выходит что текстовый редактор сначала проверит на наличие 8 символов, и только потом проверит на наличие "не ascii" символов?
  • Почему не работает регулярное выражение?

    @Tamago4a Автор вопроса
    Да и правда помогло. Интересно конечно всё это работает.
    Эта регулярка ^(.{0,7})\r?\n|^([0-9]{8})\r?\n помогла.
    А как вообще сделали эти базы таким образом, что у них переносы строк какие-то не стандартными(не виндовскими) получились?
  • Как настроить NAT loopback на Mikrotik без конкретного указания внешнего адреса?

    @Tamago4a
    alegzz, а для портов 7777-7778 будет работать способ "не указывай ip адрес и всё будет работать"?
  • Как объединить много картинок одного размера в одно большое изображение по заданному алгоритму?

    @Tamago4a Автор вопроса
    Да эту локацию я взял для примера. Но в этой игре много локаций и по всем не найти карту в гугле. Поэтому и решил вот таким способом сделать. То что вы написали в первой части я вообще не понял :)
    Кстати отмечу, что картинки немного отличаются. В целом, решение для подобной задачи много где пригодилось бы.