锟斤拷
1. 개요
占쏙옙의 간체자 버전. 占쏙옙과 발생 원리가 같다.
바이두 백과에도 锟斤拷에 대한 문서가 있다.
2. 상세
텍스트의 인코딩과 디코딩이 잘못됐을 때 생기는 것. 문서를 UTF-8로 저장하는 과정에서 뭔가 꼬여서 문서가 온전하게 저장되지 못하면 이렇게 된다.
문서를 UTF-8로 저장할 때, UTF-8에서 유효하지 않은 byte sequence는 모두 �[1] 로 대체되는데, 이 �는 UTF-8에서 EF BF BD라는 세 바이트로 저장된다.
UTF-8에서 �가 두 번 붙은 ��는 EF BF BD / EF BF BD가 되는데, 이것을 EUC-CN이나 GBK, CP936, GB2312, GB18030으로 해석하면 EF BF / BD EF / BF BD로 나눠지고 셋은 각각 锟, 斤, 拷에 대응된다.
3. 기타
锟斤拷의 한어병음 표기는 kūnjīnkǎo이며, 한국 한자음은 '곤근고'이다. 어차피 아무 의미 없는 문자열이라 어떻게 읽는지는 별로 중요하지 않겠지만...
Quora에는 kunjinkao가 무슨 뜻인지 질문한 사람도 있었다.
4. 관련 문서
[1] U+FFFD, REPLACEMENT CHARACTER