필터링
1. 사전적 의미
filtering
영어 단어 filter의 현재분사형이다.
filter의 사전적 의미는
- 1. 필터, 여과 장치
- 2. (특정한 빛・소리만 통과시키는) 여광기(여파기)
- 3. (컴퓨터) 필터(특정 정보 차단 프로그램)
- 4. (英) (교통 신호등의) 좌회전/우회전 신호
2. 인터넷에서의 필터링
Language Filter
위의 의미 중 3번의 의미와 가장 가깝다. 간단히 말해서 '''욕설 및 음란어 차단 기능'''. 사용자 입력 중에서 욕설이 있을 경우, 입력을 제한하거나 욕설을 #$%# 같은 특수문자, 혹은 ♡나 아잉같은 단어로 변경하여 보여주는 기능을 의미한다. 욕설 이외에 19금 음란어도 차단하는 기능을 보통 같이 포함한다.
다만, 대부분 일반 단어 매칭 방식만 사용하기에 한계는 있다. 일단 욕이 아닌데 차단될 수도 있다. 예를 들어 '수박 '''씨 발'''라 먹어라", "전'''염병'''",[1] "''''F'''iretr'''uck'''''[2] 같은 경우 욕설 필터에 걸려서 차단될 수도 있다. 반대로 문맥상 명백한 욕이지만, 아무런 욕설 단어가 포함되지 않는 경우도 걸러내지 못한다.[3] 역으로 돌려말하는 건 모두 차단됐는데 엉뚱하게도 원래 욕은 검열이 안 되는 경우도 많다.[4]
이런 욕설 필터의 여파로 이런 차단 단어를 피해서 새로운 신조어가 나타난다. 예를 들어 '가슴'이 19금 단어로 차단되면서, 이를 변형한 슴가를 사용하는 식이다. 또, 형태나 띄어쓰기를 살짝 바꿔서 자위는 '자우 ㅣ'라던가 포르노는 ' 포르 노'라든가. 결과적으로 야민정음의 탄생 원인 중 상당 부분을 차지하고 있다.
온라인 게임에서 시작되었으나, 인터넷 커뮤니티, SNS 등에서도 널리 이용된다.
특히 온라인 공간에서는 익명성에 기대어 얼마든지 평소와의 자신과는 다른 모습을 가질 수도 있다. 남자인데 여자인척 한다던지, 반대로 여자인데 남자인척 한다던지, 나이나 신분을 속인다던지... 그리고 말을 거칠게 한다거나 음담패설을 대중 앞에서 한다던지.
2.1. 인터넷, 온라인 게임에서의 필터링 방식
2.1.1. 경고문을 띄우며 채팅을 아예 출력이 안되게 하는 방식
예전에 포트리스2에서 사용된 적이 있다. 욕이 포함된 채팅을 입력시 갑자기 "욕은 사용할 수 없습니다."라는 메시지가 채팅창에 뜨며, 입력했던 채팅 내용을 출력조차 안되게 한다. 블루에서는 "오타 혹은 올바른 표현이 아닙니다."라고 뜬다. 이는 크레이지 아케이드도 해당되는데 욕설을 사용하면 빨간 글씨로 홍길동님은 O회 욕설을 사용하셨습니다. 5회 이상 욕설시 1분간 대화 제한됩니다.라는 경고가 뜨고 적은 채팅은 출력되지 않는다.
크레이지 아케이드, 겟앰프드와 같이 비속어 사이에 1또는 1111111을 넣어도 필터링이 되는 경우가 있는데, 보통 이 경우 ㅡ를 통해 필터링을 회피하는 경우가 많다.
넷마블의 게임에서도 초기에는 욕설을 쓰면 '바르고 고운 말을 사용합시다.'라는 경고가 뜨며 채팅이 안 되었다.
2.1.2. 특수기호로 처리하는 방식
많은 게임이나 사이트[5] 가 사용한다. 욕설을 사용시 한글 한글자 당 주로 *, ** 등으로 표기한다. 욕설이 되는 단어 전체를 특수기호처리 하는 경우도 있고, 일부만 처리하는 경우도 있다. 엘소드는 ♡로 처리한다.
과거 바람의나라에서는 $로 처리되었고, 네이버에서는 OOO로 처리된 적이 있다. 넷마블도 현재는 *로 필터링한 대사가 출력된다.
S보이스에서도 이 방식을 채택했다. 환경설정에 가면 필터링을 해제할 수 있다.
루리웹에서는 뿅뿅으로 나온다. 다만 글자 단위로 처리되는 것이 아니라 무조건 뿅뿅으로 나오기 때문에 원래 단어가 뭐였는지 알기가 더욱 힘들다. 일부 단어는 뿅뿅 대신 ■■ 내지는 ♡♡가 나오기도 한다. 또는 일부 단어만 ■를 붙이기도 하는데 예를 들어 신천지를 '신천■'→'신촌■'로 필터링하기도 한다.[6]
끄투는 글자 수와 관계없이 '♡♡'로만 나온다.
2.1.3. 다른 단어로 대체하는 방식
넥슨의 게임에서 자주 쓰이며, 욕설을 다른 단어로 교체해서 표시하는 방식이다.
소드걸스에서는 비범한 센스를 보인다.
- 강간 → 원치 않아요
엔트리(교육 플랫폼)는 댓글에 욕을 쓰면 1회엔 경고문이 뜨고 2회엔 대체 문구로 필터링 된다.
2.1.4. 아예 출력이 안되게 하는 방식
보통 욕설부분을 #$^&% 같은 특수기호로 대체하는 방식.[11] 보통 스타크래프트2가 대표적이며 설정으로 필터링을 해제할수 있다.
2.1.5. 필터링 여부를 본인이 선택할 수 있는 방식
가장 합리적인 방식이라고 할 수 있다. 특히 북미게임에서 많이 볼 수 있는 방식으로, 대체로 위의 특수기호 출력 방식을 사용하여 필터링하지만 사용자 옵션에서 필터링 여부를 결정할 수 있다.
2.2. 한계와 문제점
인도주의적, 기술적 등 여러 문제로 인해 사람이 일일이 모든 게이머들의 채팅 내용을 확인할 수 없으므로 기계를 통해 검열하게 하는데, 기계의 한계상 약간의 꼼수를 쓰면 쉽게 회피가 가능하다. 야민정음을 쓰던가, 중간에 숫자나 기호를 넣는다던가[12] , 글자를 조금만 바꾸면 얼마든지 우회할 수 있다. 'X새끼'는 '개샛기', '개색기'라고도 할 수 있으며, 그 외에서 'X발' 등은 'C8', '18', '씨FOOT', '씨1발', '^^ㅣ발', '시발[13] ', '시 발', '씨이발', '씨@발' 등, '존나'는 '조낸', '졸라' '병신'은 '병진', '빙신', 'bottle god', '병神' '지랄'은 'G랄', 'Z랄' '썅'은 '씨앙', '쌍' '섹스'는 '섹1스' '찐따'는 '찐#s-3', 'Wls' '좆같다'는 奀같다 등 수많은 변형 형태가 있다. 사실 의외로 많은 넷상의 유사 욕설들은 이런 과정을 피하려고 만들어진게 보편화되다보니 정착하게 된 것들. [14]
게다가 한술 더 떠서 일상에서 쓰이는 단어, 문장의 일부조차 욕설 등으로 인식하거나 필터링을 가한다는 점에 있다. 특히 그 게임이 부적절한 단어 부분만 다른 단어로 대체하거나 복자 처리해 내보내는 구조가 아닌 아예 채팅 등이 입력 자체가 되지 않는 구조로 되어 있는 경우 불편함은 더욱 심화된다. 대개 욕설 그 자체보단 성적인 단어, 사회적으로 사용하기 부적절한 단어, 스팸 방지를 위해 등록된 단어가 많다.
- 아구에로 → 아구** (에로를 필터링함)[15]
- 그거 보지 마라. 눈 썩어. → 그거 ** 마라. 눈 썩어. (보지를 성적인단어로 인식)
- 너 남자지? → 너 남**?(자지를 성적인단어로 인식)
- 백년묵은 버섯 → 백*묵은 버섯(년을 욕설로 인식)[16]
- 어딜도망가 → 어****('어'를 제외한 나머지 글자들(딜도, 망가)을 두 글자씩 한 단어로 인식)[17]
- 상자위 → 상** (...)[18]
- 전성기 → 전** (성기를 욕설로 인식)[19]
- 수호자궁으로 잡으세요 → 수호**으로 잡으세요[20]
- 처음부터 → 마비노기에 나오는 사례로 처음부터의 음부로 인식돼서 아예 출력이 안된다. 이 표현을 전하려면 처음과 부터를 띄어쓰거나 첨부터라고 써야한다.
- ~해야 한다. → ~해**다. ('해야'의 야와 '한다'의 한을 합쳐서 '야한'으로 인식) 어찌 보면 가장 불편한 사례 중 하나다. 해야 된다로 해결 가능
- [21]
- 너 몇살인데? → 너 몇**데? (살인을 욕설로 인식.)
- 이거 씹어 먹지 마 → 이거 *어 먹지 마 (씹을 욕설로 인식.)
- 한조까지 있네 → 한**까지 있네 (조까를 욕설로 인식.)
- 화염병 → 화**
- 이거 어딨는지 뒤져 봐 → 이거 어딨는지 ** 봐(뒤져(뒈져)를 욕설로 인식.)
- 앱이 자꾸 꺼져 → 앱이 자꾸 ** (꺼져를 욕설로 인식.)
- 이젠 장난 그만 해 → 이* *난 그만 해 (젠장을 욕설로 인식)
- 시발점 → **점 (시발을 욕설로 인식.)
- 🔴🟠🟡🟢🔵🟣🟤⚫⚪ → 🔴🟠🟡🟢🔵🟣🟤*⚪ (⚫[링크] 을 욕설로 인식.)
- ㅂㅅ받침 → **받침 (ㅂㅅ을 욕설로 인식)[22]
- 고추 사왔어. → ** 사왔어 (고추를 욕설로 인식.)
- 하고자 한다, 먹고 자고 →대체 문장(고자를 인식.)
또한 코드 문제상 전혀 안 그럴 단어도 욕으로 인식하는 버그가 존재한다. 대표적인 예로 제로보드에서 '려운'을 좆으로 인식하는 현상인데,[23] 이는 KS X 1001 완성형(정확히는 EUC-KR)에서 '려'의 두 번째 바이트와 '운'의 첫 번째 바이트가 '좆'의 두 바이트와 일치하기 때문이다. EUC-KR에서 '려'는 B7 C1이고 '운'은 BF EE이고 '좆'은 C1 BF이다. 즉 '려운'을 쓰면 B7 C1 BF EE로 저장되고, 중간의 C1 BF가 '좆'으로 잘못 인식되는 것이다. 실제로 메모장에서 '려운좆'이라고 쓰고 ANSI 인코딩으로 저장해서 HEX 에디터로 뜯어 보면 B7 '''C1 BF''' EE '''C1 BF''' 이렇게 뜨는 것을 볼 수 있다.
문제는 이 "려운"이라는 자구가, 한국어로 된 스크립트에서 꽤 자주 등장한다는 것. 예를 들어, "긁기 어려운 부위가 가려운데 똥까지 마려운 현실이 참 두려운 몽양 려운형 선생" 뭐 이런 글귀를 입력한다고 해보자. 분명히 제대로 써넣었더라도 나중에 확인해보면 ''' 긁기 어좆 부위가 가좆데 똥까지 마좆 현실이 참 두좆 몽양 좆형 선생''' 어쩌고 하는, 왠지 가족까지 끌어들인 패드립 같기도 하고 '''하여튼 읽는 사람 입장에서 기분나쁜 무언가'''가 화면에 뜬다는 얘긴데, 이래가지고서는 도무지 글을 등록할 수가 없다.
'''"어르신 배려운전 캠페인 - 한국교통안전공단"''' 이런 예문도 생각해볼 수 있겠다. 이걸 제로보드에다 옮겨적으면 대체 불쌍한 어르신들을 데려다가 뭘 하겠다는 건지, 그게 교통안전하고 무슨 상관이 있는 건지 짐작조차 할 수 없게 된다. 그래서 제로보드를 설치할 때 이런 현상을 방지하기 위해서 이 코드 인식 방식을 바꾸는 팁이 존재한다. 물론 근본적으로는 인코딩을 UTF-8로 바꿔야만 깔끔하게 해결된다.[24] EditPlus라는 텍스트 편집기를 사용하면 인코딩을 한번에 변환하는 것이 가능하다.
3. 회사 입사과정에서의 필터링
대개 회사에서 공개채용을 실시할 때 지원자들로부터 입사원서가 회사에 엄청나게 많이 들어온다.[25] 그 모든 서류를 일일이 다 검사하는 것은 현실적으로 불가능하기 때문에 스펙을 포함한 여러 기준으로 일괄심사하여 일정 기준 이하의 서류들은 모두 탈락시키는 것을 의미한다. 기준 미달 지원자들의 자기소개서는 시스템으로 걸러내서 아예 읽지도 않는다. 대학생들이 스펙 쌓기 경쟁을 하게 만드는 주범이다. 인적성시험이고 면접이고 이 스펙이 있어야 '''기회'''가 있으니까.
기업 인사팀의 입장에서는 서류심사에 지나치게 많은 시간, 비용, 인력이 들어가는 걸 막을 수 있다. 삼성그룹의 경우 일정 기준을 통과한 모든 사람에게 시험을 볼 기회를 준 적이 있었으나, 비용이 너무 많이 들어서 2015년쯤 포기했다. 몇몇 공공기관의 경우 탈 스펙 채용을 한다는 홍보효과가 있기 때문에 한국수력원자력, 코레일 등에서는 일정 기준 통과한 모든 사람에게 시험 볼 기회를 주고 있다.
많은 기업에서 토익 700/토익스피킹 6, GPA 3.0/4.5를 기준으로 필터링을 하고 있다. 이것은 전공지식이 필요해서도 아니고[26] 영어 읽기/쓰기/말하기 실력이 필요해서도 아니다. [27] 이것을 못 할 경우 직장생활을 해내지 못할 만큼 성실성이 부족하다고 보기 때문이다.
이런 필터링은 청년실업의 원인이 되고 있다. 졸업 이후에는 바꾸기가 힘든 학벌, 학점, 학과, 나이등이 상당히 높은 비중을 차지하고 있어서 패자부활전이 불가능하기 때문이다.
4. 관련 문서
[1] 또는 "화'''염병'''".[2] 일부 연예인이나 개그맨은 이런 욕설 같으면서도 욕설이 아닌 표현을 찾아내어, 지상파에서 개그 소재로 써먹는다.[3] 대표적으로 돌려말하는 패드립. 그리고 금지어가 있다고 해도 중간에 다른 글자라도 있으면 차단이 되지 않기 때문에 우회하긴 쉬운 편. 역으로 이런 우회단어들을 차단하다 보니 너무 엄격해지는 경우도 있으며 《한쿠페스》 초반에는 엄격하게 욕설을 필터링하다 보니 새끼를 좀 변형시킨 시키가 차단되고, 그러면서 《스쿠페스》의 주인공인 니'''시키'''노 마키가 차단되고, 선정적인 단어를 차단하다 보니 러'''브라'''이브가 차단된 적도 있었다.[4] '절라, 열라, 조낸'은 차단되는데 '존나, 존내'는 그대로 올라가는 이런 식.[5] 라인 웹툰 등.[6] 원래 '신천■'로 필터링 되었지만 신천지 대구교회 코로나바이러스감염증-19 집단 감염 사건으로 인해 신천지가 엄청난 욕을 먹으면서 '신촌■'로 바꿨다.[7] 메이플스토리에선 어머로 필터링된다. X지 뿐만 아니라 ㅈ이나 ㅂㅈ나 ㅅㅅ등 성 관련 단어가 전부 어머로 필터링된다.[8] 한때 로리도 어머로 필터링됐었다. 덕분에 이벤트나 아이템 명칭에 로리라는 단어가 들어가있으면 어머로 바뀌어 표출되어 유저들 사이에서 웃음거리가 되었었다. 대표적으로 플로리안 헤어가 플어머안 헤어로 바뀐 사례가 있다.[9] 크레이지 아케이드에서 이렇게 표시되었다. 덕분에 채팅창은 욕을 쓰면 쓸수록 귀엽게도 아잉아잉거렸으나 채팅 경고를 먹는 걸로 바뀐다.[10] 크레이지레이싱 카트라이더에서도 마찬가지로 이렇게 필터링을 했다. 단, 자신에게는 필터링 되지 않는다. 상대방에게는 '아잉'으로 보여도 자신한테는 비속어가 그대로 나오는 셈. 그래서 가끔 채팅창에서 "매빠가 어렵네" 처럼 비속어로 처리되는 단어가 포함된 채로 이야기하면 상대방은 "매아잉 어렵네"로 필터링 되어 나오기 때문에 혼선을 빚을 수 있다. 이 때문에 욕을 하면 캐릭터가 애교를 부리는 모습을 볼 수 있다. 심한 욕을 하려 할수록 게임창은 애교로 도배가 된다.[11] 아예 지워버리는 경우도 있는데, 두겹으로 쓰면 계획대로라는 허점이 있다. 새''새끼''끼라고 치면은 중간에 새끼가 사라지고 새끼만 '''남는다'''.[12] 가장 대표적인 예로 병1신이 있다. 혹은 크레이지 아케이드처럼 중간에 1을 넣어도 필터링이 되는 경우, 시12345발처럼 응용할 수 있다.[13] 보통은 걸러진다.[14] 한국만 이런 필터링 회피를 하는게 아니다. 영미권 사이트에서도 필터링 회피는 많이 보이며 대표적으로 리트를 쓰거나 비슷한 발음의 스펠링을 사용한다.(예:fuck -> fuk)[15] 피파 온라인 3 에서 에로를 **로 필터링했던 적이 있다. 정작 게임 내에서 아구에로는 멀쩡하게 나왔다.[16] 온라인 게임 테일즈위버에서 실제로 나온 필터링 사례다.[17] 이쪽은 요구르팅에서 있었던 사례. 이를 역이용한 것으로 띄어쓰기를 바꾼 어 딜도 망가라고 쓰는 드립이 있다.[18] 짤방으로 돌아다녔으며, 서든어택에서 실제로 있던 사례다..[19] 스키드러쉬에서 실제로 발생했다고 한다. [20] 사이퍼즈에서 나온 사례로 수호자를 궁극기로 잡으라는 얘기이다.[21] 카트라이더에서 피에로가 필터링된 사례다.[링크] 링크가 있다.[22] ㅄ받침으로 해결 가능[23] 일례로 구글에서 "어려운", "어좆"을 같이 넣고(따옴표 포함) 검색하면 '어려운'이 '어좆'으로 깨진 듯한 검색 결과들이 꽤 보인다.[24] UTF-8에서 한글은 3바이트로 표현되는데, 이를 이진수로 표현하면
1110xxxx 10xxxxxx 10xxxxxx
와 같은 형태가 되며, x라고 표기한 자리에 유니코드 바이트가 들어간다. 즉 첫째 바이트와 둘째 이상 바이트의 구조가 다르기 때문에 바이트가 겹칠 일이 없다.[25] 현대차그룹의 경우 상반기/하반기 각각 15만개씩 원서가 들어온다.[26] 영업직에 지원하는데 '철학과'에서 배운 전공지식이 직접적으로 장사 수완을 몇 배씩 뻥튀기시켜주지는 않는다.[27] 토익 성적과 영어 실력의 상관관계는 이미 부정된 지 오래며 영어권 국가의 초등학교 고학년이면 당연히 이 정도 점수보다 영어를 잘 한다.