Список мата для фильтра Вконтакте

Недавно понадобилось мне подключить мой проект (сайт на WordPress, Телеграм-канал, ВК группу) к фильтру матов и озадачился я предложениями, которые выдает интернет. Поэтому решил проанализировать те, что смог найти и составить личный список, который, надеюсь поможет коммунити Хабра.

Спойлер: найдено всего два сервиса и если знаете еще, то пишите в комментариях.

Сначала о том, какие трудности были

Проблема 1: напиши код сам

Когда пытаешься найти в Яндексе, Гугле и даже Мейле с Бингом сервис для фильтрации матов, то поисковики выдают все, что можно, но только не то, что нужно. Это и «как написать простой фильтр матов», и «скрипт плохих слов», и «BERT — state-of-the-art» и прочее подобное начиная с 2009 года публикации, что нужно хорошенько сдобрить молотком и напильником.

Проблема 2: заполни словарь сам

Возьмем инструкцию по донатам для Твича. Сама инструкция понятная, но это же сколько нужно точечно проработать разных вариаций комбинациями вроде Плохие слова: wc:д__а — тут слово начинающееся с «д» и заканчивающееся на «а» будет помечено звездочками. Это сколько же таких вариантов надо прописать?

Русский мат, разбор. 18+ Мат. 😁👍

Проблема 3:

Это, что называется, моя личная драма, но хотелось бы найти сервис, который можно было бы подключать из одной точки. То есть чтобы не приходилось отдельно настраивать слова и режимы в телеге, отдельно в ВК, отдельно настраивать на сайте. Потому что это и удорожание и трата времени на настройку. Ведь хочется войти на одном сервисе, заполнить разово все стоп-слова и пользоваться везде.

Актуальность

Судя по тому, каков опрос о востребованности фильтров в старой статье Хабра, сообщество разделилось в далеком 2014 примерно пополам.

Еще по теме:  Как удалить одноклассники свою страницу ВК

С другой стороны, сегодня тот же ВК не стоит на месте и вводит в действие нейросеть, которая борется с оскорблениями. На Пикабу родился и сразу умер пост про «Сделайте фильтр матов». Внутренние фишки в Твичах, Одноклассниках, Стимах — все это показатель, что кому-то да требуется фильтрация.

Следовательно вопрос: а чего тогда найти-то сложно такой сервис? Хорошо, я могу включить в ВК и пусть он как-то своим алгоритмом защищает, но что делать с сайтом и Телеграмом?

Найденные сервисы

Сервисов на самом деле не много. Всего два и на поиск убил часов 5, причем не из поисковиков прямо, а как-то левыми путями, через ссылки на сайтах. Если кто-то найдет еще, добавляйте в комментарии.

WebPurify

В меньшем тарифе за $5 нет API, а в том, что за 15 ограничение на один домен или IP, что в общем-то предостаточно, если все пропускать через один узел, но один язык — недостаточно. Так что раскошеливаемся на почти 4000 в месяц.

Круто то, что есть API. Считай, можно все пропускать через него и будет одинаковый результат. Сложилось впечатление, что у ребят есть опыт и дело прёт, потому что и 6 CMS и отдельные фильтры матов для фото и для видео, ну и сайт более презентабельный, чем у следующего по списку.

Шедевр русского мата

Админка WebPurify с предварительным тестированием

LF-сервис

сноска 1 — это расчеты на основании данных под демо-формой — подогнал текст под 1000 знаков

Особо порадовало то, что есть разделение на словари: защита детства, русские тяжелые маты, английские тяжелые маты и русские террор-слова и их можно подключать отдельно. Правда, во фразе «застрахуй два корабля и получишь два рубля» сервис помечает слово «корабля», а также пару запрещенных организаций не нашел.

Вообще, по распознаванию английских/русских слов, этот сервис можно назвать обратным к WebPurify: ищет лучше русские, а английские хуже. Дизайн сервиса не воодушевил — много букв.

Еще по теме:  Как раскрутить страницу в ВК по маникюру

Ответ LF-сервиса

Итого

С одной стороны, WebPurify за 4000 в месяц дорого, если считать что у меня за день сообщений 300 если наберется, то хорошо.

Экономика заставляет считать. Будем считать исходя из многосложного тарифа LF-сервиса, потому что вот так. Иначе не сравнишь. Долго голову ломал, какая формула, но картина следующая.

300 обращений * (500 символов * (0.0001 руб за символ + 0.00015 руб за символ при глубокой проверке) + 0.05 руб за обращение) * 30 дней = 1575 рублей в месяц

В реальности выглядит так: в первые сутки (даже часов 15, наверное) использования, промо-баланс просел на 45 рублей.

Чисто с финансовой точки зрения, если у кого-то больше 1000-2000 текстов в сутки, можно сразу идти на WebPurify, чтобы потом под API другого сервиса не переписывать и людей не переучивать.

С точки зрения качества проверок, с учетом гибкости человечьей речи, я бы раздал баллов примерно поровну, может с небольшим перевесом в сторону российского сервиса из-за чуть лучшего распознавания.

С точки зрения удобства WebPurify лучше, но это мое личное мнение из-за статистики в админке, белого и черного списка и тестирования запросов в админке.

В обоих случаях модератор обойдется дороже, а если в день меньше 10-20 текстов проходит через вас, то можно вообще не париться, если эти тексты не представляют из себя газетные статьи.

Источник: habr.com

ВКонтакте появилась возможность скрывать нецензурную лексику в постах и комментариях

ВКонтакте появилась возможность скрытия нецензурных выражений в постах и комментариях

У пользователей социальной сети ВКонтакте появилась возможность скрывать нецензурные слова в постах и комментариях. Для этого потребуется активировать соответствующий фильтр в настройках в разделе «Приложение». Пока функция работает только на русском языке.

При включении фильтра нецензурные слова и мат в постах или комментариях будут заменяться на набор символов. При желании также можно просмотреть исходный вид высказывания – при нажатии на выражение отобразится плашка. Обновление пока доступно не всем и будет распространяться среди пользователей постепенно.

Как работает фильтр нецензурных выражений ВКонтакте

Как сообщает пресс-служба ВКонтакте, ранее скрытие комментариев с нецензурными выражениями или враждебными высказываниями стало доступно администраторам сообществ. При активации фильтра соответствующие сообщения для всех скрывались, а руководители в настройках могли посмотреть, удалить или восстановить их по желанию.

Еще по теме:  Как сделать тему на ВК на компе

Функция была разработана в рамках стратегии ВКонтакте по формированию комфортной цифровой среды. Ранее в рамках этой же инициативы была запущена функция «Личное пространство» для ограничения круга общения на определенное время. Также по этой стратегии ВКонтакте начал предупреждать пользователей о подозрительных собеседниках, о чем мы писали в Комьюнити.

Источник: timeweb.com

bars38/Russian_ban_words

This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.

Switch branches/tags
Branches Tags
Could not load branches
Nothing to show
Could not load tags

Nothing to show

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

Cancel Create

  • Local
  • Codespaces

HTTPS GitHub CLI
Use Git or checkout with SVN using the web URL.
Work fast with our official CLI. Learn more.

Sign In Required

Please sign in to use Codespaces.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching Xcode

If nothing happens, download Xcode and try again.

Launching Visual Studio Code

Your codespace will open once ready.

There was a problem preparing your codespace, please try again.

Latest commit

59079c3 Sep 18, 2014

Git stats

Files

Failed to load latest commit information.

Latest commit message
Commit time

README.md

Список русских матерных слов для бана

List of russian abusive words for ban

На данный момент в списке 1316 слов. Данный список не является полным и будет в дальнейшем обновляться.

Источник: github.com

Рейтинг
( Пока оценок нет )
Загрузка ...