占쏙옙

 

[image]
[image]
[image]
[image]

1. 개요
2. 변형
3. 예시
4. 임의로 만드는 법
5. 나올 수 있는 문자


1. 개요


오류로 생기는 문자열. 점쏙옙이라고도 부른다.
'''UTF-8'''
'''�'''
'''�'''
'''바이트'''
EF
BF
BD
EF
BF
BD
'''EUC-KR'''
''''''
'''쏙'''
'''옙'''
텍스트의 인코딩과 디코딩이 잘못됐을 때 생기는 것. UTF-8로 저장하는 과정에서 뭔가 꼬여서 온전하게 저장되지 못한 문서를 EUC-KR로 불러오면 이렇게 된다. 문서를 UTF-8로 저장할 때, UTF-8에서 유효하지 않은 byte sequence는 모두 �(U+FFFD, REPLACEMENT CHARACTER)로 대체되는데, 이 �는 UTF-8에서 EF BF BD라는 세 바이트로 저장된다. UTF-8에서 �가 두 번 붙은 ��는 EF BF BD / EF BF BD가 되는데, 이것을 EUC-KR로 해석하면 EF BF / BD EF / BF BD로 나눠지고 셋은 각각 '占', '쏙', '옙'에 대응된다. 이와 같이 UTF-8 문서 저장 과정에서 뭔가 잘못된 경우, 저장된 문서를 다시 열어보면 문서의 모든 내용이 占쏙옙으로만 채워져 있다. '''불러올 대상이 이미 �로 깨져있어야만 일어나는 오류이기 때문에, 占쏙옙이 이미 일어난 상태에서는 뭔 짓을 해도 원래 나왔어야 할 문서는 못 본다.'''
어쨌든 데이터 저장 과정상의 오류이므로 웹에서 이 문제가 일어난다면 서버 측의 오류일 수도 있고, 클라이언트 측의 오류일수도 있다. 서버 상에서 한글 처리 오류가 발생해 입력받은 문서가 전부 �로 저장되거나, 업로드 시점에서 이미 데이터가 �로 깨져서 올라간 상태에서 사이트 기본 인코딩이 EUC-KR로 지정되어 있으면 이 문제가 일어나며, 반대로 서버와 서버 상의 데이터에는 문제가 없는데 클라이언트 상에서의 오류로 인해 서버에서 불러오는 한글이 전부 �로 깨져서 캐싱돼도 이 문제가 일어난다. 당연히 일부러 �로 깨진 페이지를 불러와서 인코딩을 EUC-KR로 강제 지정하면 맘껏(?) 감상할 수 있다.

2. 변형


바리에이션으로 占쌩쏙옙, 占싱깍옙, 占긍궔옙, 占쌀곤옙, 占싼깍옙, 占싱몌옙, 占쌉뤄옙, 占쌍듸옙, 占쌀븝옙, 占쌌니댐옙, 占싹시울옙, 占실심받아왔댐옙 등이 있으며, 여태까지 발견된 것 중 제일 긴 것은 '占쌩싱귐귤됐왔늡심받아왔니시왔늡싣왔늡심받아왔달앵억옙'(27자)이다. 종류가 다 적지 못할 정도로 많다. 占ㅆ~옙(내지는 占ㅅ~옙)하는 글자들은 전부 같은 원리로 생성된다. 참고로 ~옙 으로 끝나지 않는 것도 있으며 占썩본, 占썰구, 占싹기도, 占썩서, 占싫, 占쌍, 占썸남(...) 등이 있다.
한때 이글루스에서 占쏙옙 때문에 대란을 겪은 적이 있으며, 요즘도 잊을 만하면 가끔씩 출몰한다.
자매품으로는 '竊잞폕'[1]과 '용습계품'[2]이 있다.
가끔씩 占쏙옙과 竊잞폕이 합쳐진 '''占竊잞폕옙'''(￯¼Ÿ?¿½) 이나 占쏙폕(�?) 혹은 竊잞옙(?�) 출현하는 경우가 있는데, 이 경우는 매우 드물다.
'占쏙옙'의 간체자판은 锟斤拷이며, 일본어판은 鐃緒申(EUC-JP), �ソス(SHIFT-JIS)이다.
영미권 ISO/IEC 8859-1에서는 �으로 표시된다. UTF-8로 저장된 �의 EF, BF, BD 세 바이트가 ISO/IEC 8859-1에서는 각각 ï, ¿, ½에 대응되기 때문이다.

3. 예시


  • 일본 센다이시의 공공 와이파이를 통해 일부 한국어 페이지 접속 시 오류로 모든 한국어 문자가 占쏙옙으로 나타나기도 한다.
  • JR 히가시니혼에서 기명식 관광 티켓을 발급할 때 한글 이름이 占쏙옙으로 노출된다.
  • Baekjoon OJ에서 문제로 제공 중. [답][힌트]
  • 한국리서치라는 설문조사 사이트에서 보낸 메일을 보면 거의 항상 제목이 이런 식으로 깨진다.
>[占싼깍옙占쏙옙占쏙옙치]占쌀븝옙占쏙옙 占쏙옙품 占쏙옙占쏙옙 占쏙옙 占쏙옙占쏙옙(占쏙옙占쏙옙占쏙옙호:0150)
  • 나무위키에서 지원하지 않는 이모지를 2번 입력하면 이 문서로 넘어온다. 이스터 에그 같은 건 아니고 지원되지 않는 이모지를 입력하면 자동으로 ��로 해석되는데, ��가 여기로 리다이렉트되어있어서 일어나는 당연한 현상이다.
  • 유플러스 인터넷 서비스에서도 출현. 정확히는 UTF-8EUC-KR로 잘못 읽어서 발생한 것이다.

4. 임의로 만드는 법


  • 메모장을 연 뒤 '�'로 도배한 후 인코딩을 UTF-8로 설정한 뒤 파일 형식을 html로 저장한 다음 Internet Explorer로 열어서 마우스 우클릭을 한 다음 인코딩을 한국어로 하면 나타난다.
  • 그림판을 열고 이 색(#BDBFEF, 빨강 189, 녹색 191, 파랑 239)으로 채운 뒤, 24비트 BMP로 저장한 다음 그림 파일을 메모장으로 열면 된다. 윗부분에 占쏙옙 하나만 나타나는 게 아니고 전체로 도배되며, 앞부분에 헤더 정보가 담긴 제어 문자가 등장한다.[3] 만약 Windows 10 20H1 미만의 윈도우를 쓰고 있을 때 png로 저장하면 커널 패닉이 발생한다.

5. 나올 수 있는 문자


여기에 서술된 문자들은 EUC-KR 기준으로, 앞의 占과 뒤의 옙 사이에 이 문자가 걸렸다면 십중팔구 占쏙옙이라 봐도 된다.
앞에 占을 뺀 싊뿮뱦뺴쏙옙 도 있다.[4]
코드
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
BDA0
















BDB0
















BDC0
















BDD0
















BDE0















''''''
BDF0
















코드
0EF
1EF
2EF
3EF
4EF
5EF
6EF
7EF
8EF
9EF
AEF
BEF
CEF
DEF
EEF
FEF
A000


?


ο
?





э
?
?
?
B000













''''''


C000
















D000
















E000
















F000

















[1] 전각 물음표 두 개(??)를 UTF-8로 저장한 뒤 CP949로 열면 이렇게 된다. UTF-8: EF BC 9F (?) / EF BC 9F (?)→CP949: EF BC (竊) / 9F EF (잞) / BC 9F (폕). 여담으로 竊는 '훔칠 절'자이다("절도" 등).[2] 외국 사이트에 적힌 한국어에서 자주 발생하며, 占쏙옙이나 竊잞폕과는 다르게 어감이 뭔가 그럴싸하기 때문인지 외국의 어느 게임 회사가 게임명을 한국어로 번역하려다 인코딩 오류로 저게 뜬 걸 그대로 제목으로 붙여버린 웃지 못할 사례도 있다. [답] 문제에서 占쏙옙을 모두 제거하면 내용이 나온다.[힌트] 이 문제는 예제를 채점하지 않습니다. 데이터는 한개입니다. 입력을 받을 필요는 없다.[3] 실패하는 경우도 있는데, 파일을 1px X 1px로 저장하고 메모장으로 실행하면 BM: 6 (      � 이 나타나며 실패한다.[4] 자세히 보면 가 아니고 다. 아마 Shift-JIS 환경에서 한번 글자가 깨지고 EUC-KR/CP949 환경에서 한번 더 깨진 것으로 보인다.