Вордфильтр

Материал из Lurkmore
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску
<Henry Kane> О, прикольный тест. Определяет физическую подготовку по сердцполюбиению.

<Allgood> по чему? :-о <Henry Kane> сердц е б и ение, блеать... <Henry Kane> Я уже полюбил местный антимат.

Вордфильтр (англ. word filter — фильтр слов) — примочка к форумам, чатам и подобным прочим местам, заменяющая нецензурные слова на установленную админом комбинацию символов, например ***. Список запрещенных слов формируется админом.

Также возможно автовыпиливание поста и автоматические действия по отношению к написавшему, например автоматический бан.

Масяня. Эпизод 43. Хомяк
Масяня. Эпизод 43. Хомяк
«Эти слова надо тоже в фильтр добавить»

Типы

Судя по всему, делятся на два типа:

  • Заменяющие точно те слова, которые есть в списке запрещенных. Менее эффективно, но более точно.
  • Заменяющая по шаблону все запрещенные комбинации символов, даже если это кусок слова. Типа, чтобы сразу выпилить и само слово, и его формы, и самого автора поста. Такая форма люто доставляет.
  • Крайняя форма строгости, при которой вордфильтр игнорирует пробелы, или же сверяется с своим огромным словарем матерного (и не только) языка с целью выяснить, насколько сильно вот это слово написано с ошибкой — комбинация символов может быть не точь-в-точь как эталонный матюк, а отличаться на (не)приемлемые N символов (1/2/3/4/ect) — вдруг у нас матершинники безграмотные, или торопятся куда-то, или клавиатура у них заедает. А сам словарь такой, что ему каждое второе слово матерным покажется. И залепить туда ещё и словарь суффиксов, приставок, окончаний, склонений, спряжений и прочих морфем, который активируется следующим образом: матюк запикивается символами «██████████████», и если к ним что-то прилегает — это прочие морфемы матерного слова, подлежащие удалению через замену на те же «█████», вместе с куском пробелов, чтоб висящие в воздухе остатки слов глаза не мозолили. И чтоб высматривал буквы насквозь строк: одна буква на первой строчке, вторая на десятой, третья вообще в самом конце, а складывается матюк, дабы ENTER не спасал. И научить его использовать мудрёный викификатор и символами из таблицы символов и юникода, просматривать содержимое картинок и блокировать непроверенные ссылки. В общем — есть ещё много способов сделать вордфильтр ещё более старательным, но даже сами управляющие и владельцы фильтра понимают, что это уже перелет, так что обычно это или пародия на обычный вордфильтр, или делается смеху ради, или как троллинг при помощи пользовательского бота с фильтром, или же в случае совсем уж параноидального администратора, иными словами — в крайне редких случаях.

Лулзы

Очевидно, что пока в русском языке и прочих расовых мунспиках есть слова типа оскорблять, подстрахуй, колебания, скипидар, команда, потребитель и прочие подобные, вордфильтры второго типа дебильны не могут не давать постоянного притока лулзов, вызванных цензурированием тех или иных нормальных слов.

Таким образом, можно находить мат и лулзы там, где их в помине не было.

Фильтры первого типа настраивать сложнее, ибо список слов должен быть намного больше. Потому зачастую админы просят сочувствующих «обучить» вордфильтр, наполнив его релевантным контентом. Данный процесс приносит ещё ряд лулзов, поскольку в перечне слов наверняка окажутся, в зависимости от аудитории, Путин, Буш Дядя Обама, Леня Космос, Янукович, матан, фамилия директора школы и прочие подобные вещи.

Противоборство

В зависимости от степени долбоебизма стараний быдлокодера, который писал вордфильтр, его с переменным успехом можно обходить. Основные методы включают в себя:

  • Применение б-гмерзких многоточий, звездочек, !@#$% и прочей хуиты.
  • Замену православных РусскихЪ БуковицЪ на идентичные буквы латинского алфавита или арабские цифры. Бонусные очки, если припахать всю остальную таблицу Юникода. Таким образом, «хуй» превращается в «xYu», «пизда» в «пN3дy», «Лев Николаевич Гумилев» — в «Лeв Hикoлæвич Гyмилeв». Ну вы понели.
  • 1337, 265, etc.
  • Наконец, символы можно представить в кодах. К примеру, «хуй» превратится в брутальное «&#1093;&#1091;&#1081;».

Расстановка точек

Использование быдлофильтров указывает на некомпетентность администратора форума, ибо налицо непонимание оным простых фактов:

  1. В случае выпиливания по регекспам надо либо строить нефиговое выражение, состоящее из матана чуть более, чем полностью, либо мириться с 9000 жалоб пользователей, что фильтр неверно реагирует на слово «оскорблять», но не реагирует на слово «ибацца». Примеры выше намекают.
  2. В случае выпиливания целиком список должен быть таким, что выполнение поиска по нему начнет занимать весьма нехуевое время, что, конечно же, скажется на скорости работы форума.
  3. И в том и в другом случае пользователи все равно обойдут вордфильтр, как ни старайся.

Как следствие можно вывести, что вордфильтр есть очередная неудачная попытка автоматизации работы модератора и де-факто нахуй не нужен, проще найти вахтёра с аллергией на мат.

Есть и еще одно применение вордфильтру — прикрытие задницы владельца. Так, например, на форумах главного сайта РБК запикиваются фамилии Путин, Медведев и Зюганов. Многие согласятся, что слова эти не слишком приличные, но основная причина в том, чтобы некто не мог найти оскорбления вышеозначенных персонажей и выписать соответствующую награду за экстремизм.

И наконец, есть исключительные случаи, когда автозамена изпользуется для лулзов или с целью избавить содержание постов от наиболее употребляемых слов. Например, на 2ch.so слово «школьник» автоматически превращалось в сосницкий; а «быдло» — в элита.

Также ворлдфильтр может применяться для того, что бы не матерились боты: были зарегистрированы случаи, когда самообучающие чат-боты начинали материться (нахватались от троллей), нахватались фашисткого бреда (тоже от троллей) или перешли на свой собственный язык, для человека выглядящий как бессмысленный набор слов (слишком долго говорили друг с другом, не получая сигналы поощрения за использование английского языка — и разучились на нем говорить), а в теории возможен случай внезапного перехода бота с одного языка на другой (скажем, если российский бот будет говорить с китайцами чаще, чем с русскоговорящими, то тот, теоретически, может перейти на китайский) — и в результате таких событий случившееся считали возмутительным или непонятным, а ботов отключали, и зачастую от греха подальше не включали обратно. Соответственно, ворлдфильтр должен фильтовать речь бота, дабы тот глупости не наговорил — шанс того, что он будет пытаться обойти ворлдфильтр и выкручиваться небольшой.

См. также


ae:Wordfilter en.w:Wordfilter

Loading comments...