Задать вопрос
Пользователь пока ничего не рассказал о себе

Наибольший вклад в теги

Все теги (7)

Лучшие ответы пользователя

Все ответы (10)
  • Поиск похожего предложения

    @Trept
    Может помочь метод шинглов.
    Каждое предложение разбиваем на ряд n-грамм, например, триграмм. Строим хэши для триграмм. Таким образом каждому предложению соответствует несколько хэшей, для триграмм их будет k-2, т.е. в Вашем примере 8. При совпадении хэшей проверяемого предложения с хэшами какого-либо предложения из базы больше некой границы, скажем, 50%, будем считать предложение «копипастным».
    Ответ написан
    2 комментария
  • Существует ли доступный тезаурус русского языка?

    @Trept
    Лучший тезаурус на сегодняшний день, скорее всего, в Абби, разработан в рамках программы Compreno USH ( habrahabr.ru/company/abbyy/blog/115226/).
    Самый объемный, опробованный в практических задачах, машинно-ориентированный тезаурус — РуТез (УИС Россия uisrussia.msu.ru/is4/main.jsp).
    Правда, это все коммерческие разработки, в открытом доступе не находятся.
    К сожалению, ничего другого сравнимого по глубине проработки и полезности для применения для русского языка я не знаю.
    Ответ написан
    1 комментарий
  • Как получить максимум из 3G подключения?

    @Trept
    Я купил Вай-фай роутер с поддержкой 3g-модемов, сам модем на удлинителе повесил на окне. Теперь не привязан к конкретному месту.
    Ответ написан
    Комментировать
  • Выбрать книжную социальную сеть

    @Trept
    Советую imhonet.ru
    Не все там хорошо, система рекомендаций по близости интересов в последнее время буксует.
    Но при небольшом усилии (ручной фильтрации) хорошие рекомендации можно получить.
    Но предварительно нужно будет дать оценку довольно приличному (порядка сотни) списку книг, которые Вы уже прочли. Это для того, чтобы система определила Ваши предпочтения, и нашла близких к Вам читателей.
    В любом случае прочитать тысячи рецензий невозможно, а все абсолютные рейтинги аналогичны средней температуре по больнице.
    Так что в целом подход Имхонета правильный, вот только им проработки кластеризации и системы определения авторитетов не хватило.
    Ответ написан
    Комментировать
  • Парсинг сайта. Законно ли?

    @Trept
    Сам по себе парсинг сайта, как и прочих открытых информационных ресурсов полностью законен, если Вы не взламываете пароли, результаты Вашей работы не меняют код и структуру, а также не влияют на функциональность сайта.
    Однако использование полученных ресурсов сайта (например, копипастинг текстов или копирование дизайна) может быть нарушением авторских прав.
    Ответ написан
    Комментировать