파파고

 


[image]
'''파파고'''
Papago
'''용도'''
통역기, 번역기
'''지원 기기'''
,
'''출시일'''
2016년 8월 8일
'''제작사'''
네이버 주식회사
'''주소'''

'''애플리케이션'''

1. 개요
2. 기능
2.1. 1:1 대화 모드
2.2. 이미지 번역(OCR 모드)
2.3. WSD 화면
2.4. 글로벌 회화
2.5. 즐겨찾기와 해시태그
2.6. Push-to-talk
3. 인공신경망 번역기
4. API
6. 관련 문서
7. 기타
8. 관련 링크

[clearfix]

1. 개요


파파고(Papago)는 네이버가 개발한 인공지능 기반 번역기이다. 2016년 8월 8일에 처음으로 애플리케이션 형태로 선보였다. 한국어, 일본어, 중국어, 영어, 스페인어, 프랑스어, 베트남어, 태국어, 인도네시아어, 독일어, 러시아어, 포르투갈어, 힌디어 13개의 언어를 번역할 수 있다. 텍스트나 음성 뿐 아니라 사진 속 문자까지 통·번역할 수 있다.
2016년 10월 26일부터 한국어↔영어 간 신경망 기반의 번역이 도입되어 번역 품질이 좋아졌다. 2016년 12월 13일에는 한국어↔중국어간 번역이 도입되어 중국어 번역 역시도 품질이 좋아졌다. 현재 스페인어, 프랑스어까지 추가하며 역시 두 언어에도 인공신경망이 도입되었다.(일본어는 인공신경망이 도입되지 않았다.) PC 네이버 번역과 달리 스마트폰 어플에서는 영어↔일본어 간에도 인공신경망 기술이 적용되었다. 자세한 내용은 네이버 번역기#s-5를 참조.
아이콘이 앵무새인데 이는 파파고가 에스페란토로 앵무새라는 뜻을 가지고 있어서인듯 하다. 근데 정작 에스페란토 번역 기능은 없다(...).

2. 기능


네이버 파파고에는 다음과 같은 다양한 기능이 존재한다.

2.1. 1:1 대화 모드


[image]

2.2. 이미지 번역(OCR 모드)


[image]
유사한 기능이 있는 구글번역과 비교하면 아직은 미흡한 수준. 특히 단어인식에 있어서 갤러리에 저장해놓은 만화같은 이미지[1]는 큰 지장이 없지만, 사진으로 찍은 글자를 번역하는 것은 기대하지 않는 것이 좋다.[2][3]

2.3. WSD 화면


[image]
1. 자동차(車)를 타고 간다는 의미. 2. 마시는 차(茶)를 타서 만들고 그 다음 간다는 의미.

2.4. 글로벌 회화


[image]

2.5. 즐겨찾기와 해시태그


[image]

2.6. Push-to-talk


[image]

3. 인공신경망 번역기


2016년 10월 16일에 선보인 딥 러닝 기반의 번역기. Naver Labs에서 자체 개발한 인공신경망(Artificial Neural Network) 기반이다. 번역 품질은 당시에 모든 영한 번역기 중 최고 수준이었다.
물론 아직 번역기를 이용하여 영어로 깔끔한 대화를 할 수 있는 정도는 아니다. 예를 들어 '불가능한 일을 보고 있는 것은 실제로 그 일을 하는 것보다 어렵다.'라는 문장은 'It is actually harder to do than to see the impossible.'이라고 번역된다. 적절한 단어를 사용하여 문장을 구성한 것을 보면 가히 최고 수준이라 할 만하다. 그러나 정확한 문장은 'It is actually harder to see the impossible than to do.' 혹은 이와 같은 의미를 가진 문장으로서, 콕 짚어 말해 비교 대상의 순서가 바뀌어서 '불가능한 일을 하는 것은 실제로 그 일을 보는 것보다 어렵다.'라는 문장이 되었다. 구글 번역으로 동일 문장을 번역하면 "Seeing an impossible task is actually harder than doing it."이 되는데, 아주 완벽한 문장이다.
2016년 12월 13일 한국어↔중국어 신경망 번역을 지원한다. 데이터가 아직은 부족하다는 점을 제외하면 구글 중국어 번역보다 문장이 매끄럽게 번역된다!
2017년 7월 3일 기준, 네이버는 위의 문장을 'Watching the impossible is actually harder than doing it.'이라고 번역하며, 구글은 'It is harder to see things impossible than to actually do them.'이라고 번역한다. 이 둘을 비교하면 구글보다는 네이버 쪽이 이해하기 더 쉬워졌다는 것을 알 수 있다. 물론 영어 원어민한테는 다 쉽겠지만. 위 사례가 사실이라면 아무리 방대한 데이터를 보유하고 있다고 할지라도 번역의 품질이 얼마나 발전할지는 미지수라는 것을 알 수 있다.
2019년 6월 26일 기준, 파파고는 위의 문장을 'Seeing the impossible is harder than actually doing it.'이라고 번역한다.
2020년 11월 26일 기준, 파파고는 위의 문장을 'It's harder to see the impossible than to actually do it.'으로 번역한다.
현재 세간의 평가 결과, 한국어↔중국어 번역, 한국어↔일본어 번역은 파파고 쪽이 우위를 점하는 것으로 보인다. 애초부터 한국어↔일본어 번역은 네이버의 방대한 한국어↔일본어 상호간 데이터베이스 보유로 구글 대비 우위를 점하고 있었으며, 한국어↔중국어 번역도 같은 한자문화권으로 동일어원을 가지는 어휘를 다수 공유하여 구글 번역 대비 강점으로 작용하는 듯하다. 네이버는 한국어↔중국어로 직접 딥러닝이 된다면 구글은 한국어↔(영어)↔중국어로 중간 단계를 걸쳐서 딥러닝이 이루어지기 때문.

4. API


파파고는 통상적으로 네이버가 직접 제공하는 번역서비스를 일컫지만, 앱서비스 개발자라면 API 상품으로 이용가능하다. 따로 번역 프로그램을 개발할 필요없이 이 API를 이용해 기술을 빌려서 쓸 수 있다. 해당 API서비스는 네이버 클라우드 플랫폼에서 이용가능하다. 특이한 점은 요금제가 번역하는 글자단위로 책정된다는 것. 즉 해당 API를 이용해서 번역된 글자가 많을 수록 요금도 올라가는 것이다.
높임말 번역이 가능하다. 예컨대 고객이 선택한 높임말 번역 옵션에 따라, "나/저" "너/당신" "~했다/했습니다" 같은 한국어의 반말과 높임말을 구별해서 반영할 수 있다.


5. 오역


번역의 빈도에 따른 데이터 수집량이 당연히 차이가 날 수밖에 없으므로, 영한, 일한 등의 빈도 높은 번역 이의의 프랑스어 등의 번역은 상당히 형편없으며 오번역이 심한 편이다. 오번역은 경우에 따라 천차만별이다. 구글 번역과 비교했을 때, 줄임말, 관용구, 단문에서는 주로 파파고 쪽이 우수하며, 장문, 복문, 특정 주제와 관련된 글[4] 또는 문장(전문 정보를 다루는 곳; 위키피디아Quora 등.)에서는 주로 구글 번역 쪽이 우수하다(그렇다고 파파고가 꼭 장문에 약하고 구글이 단문에 약하다는 것은 아니라는 걸 유념하자).
구글 번역을 비롯한 다른 번역기들도 그러하듯이, 완전한 오역까지는 아니지만 원문과는 뉘앙스가 다소 달라진 번역 결과를 내놓거나 또는 아예 원문과는 정반대의 의미로 오역하는 경우도 종종 있는 편이다. 예를 들자면 전자의 경우에는 '단시간 가동한다'를 '빨리 가동한다' 정도로 오역하는 식이고(완전히 틀리게 번역한 건 아니지만 원문과는 문맥이 크게 뒤틀렸음을 알 수 있다), 후자의 경우에는 '할 수 있다'를 '할 수 없다'로 오역하는 식이다. 특히 일본어한국어 번역의 경우에는 어떤 문장에서는 오역 없이 제대로 번역되었다가 그 다음의 다른 문장에서는 문장의 내용이 앞의 문장과 비슷함에도 오역이 생기는 경우도 있는 등 조금 불안정한 모습도 보인다. 따라서 원문과의 대조를 해 가면서 오역 여부를 체크해야 할 상황이 종종 생긴다.
최근에는 한국어를 일본어로 번역시킬때 반말로 적어도 엉뚱하게 존댓말로 번역되는 오류가 반복되고 있다.[5] [6]
  • 한국어영어
    • 전기문 → an electric door
    • 띵작rnasterpiece
    • 댕댕이cIog[7] [8]
    • 수정과 → crystal department
    • ㅇ → £

  • 영어한국어
    • 옛날에 백조 한 마리가 살았습니다. → 한국에 마일리 가 있다.[9]
    • 가난한 → 한국
    • 가난한 사람들 → 한국 기업
    • 가난한 나라 → 》한국나라
    • 거만한 사람 → 한국 회사[10]
    • 안녕하세요 → 안녕하십니까/그러세요
    • Fuck~~: 좆까, 나라 이름을 입력했을 경우 빌어먹을 (나라 이름) 또는 가끔씩 ~의 도자기 등으로 나온다(응?)
여기에 Fuck 번역결과가 있는 이유가 바로 이 도자기 때문이다.
  • squrirm : 쑥쑥쑥쑥쑥쑥쑥 자라다......
  • 치킨다 : 덜덜 떨다
  • 브롤스타즈 : 스트레스
  • i : 저는 지금 내가 하고 있는 일을 하는 중이다
  • Son of a bitch: 높임말 설정을 하면 이 개자식아! 이 개자식아! 개자식아!(...) 가 나온다.


전반적으로 짧은 단어를 입력했을 때, 혹은 완결되지 않은 문장을 입력했을 때 반복되는 영어 문장으로 번역되는 경우가 종종 보인다. 같은 로망스어군인 스페인어로 번역해보았을 때도 오역이 있는 걸로 보아 데이터 양의 문제인 듯하다.
  • Tu → You're the one who's going to school, you're going to be a good guyou're going to go to school.you're going to go to school.you're going to go to school.you're going to go to school.you're going to go to school.you're going to go to school.you're going to go to school.you're going to school.
    • 2020년 8월 기준 _1552개 연속되어 있는 문자열로 나온다.
    • 이외에도 Je, elle은 연속된 _, elles은 (b)로 번역되는 등의 오역이 존재한다.
  • [목적어가 부재한 문장에 대한 오역]
    • Elles ne sont pas → they are not in the public interest-free; b. non-interest-free; c. non-interest-free; d. non-interest-free; e. non-interest-free; and non-interest-free.
    • Je ne suis pas → I'm not a member of the Royal Canadian Mounted Police (RCMP) or the Royal Canadian Mounted Police (RCMP), but I'm not a member of the Royal Canadian Mounted Police (RCMP).
    • Tu n'es pas → you're not a member of the Canadian Forces; you're not a member of the Canadian Forces, you're not a member of the Royal Canadian Mounted Police, you're not a member of the Royal Canadian Mounted Police, you're not a member of the Royal Canadian Mounted Police, you're not a member of the Royal Canadian Mounted Police, you're not a member of the Royal Canadian Mounted Police, you're not a member of the Royal Canadian Mounted Police.
    • Il n'est pas → It is not intended to be an exhaustive list of the types of the types of course, it is not intended to be exhaustive, but it is not intended to be exhaustive. it is not intended to be exhaustive; it is not intended to be exhaustive; it is not intended to be exhaustive; it is not intended to be exhaustive. it is not intended to be exhaustive; it is not intended to be exhaustive. it is not intended to be exhaustive.
    • Elle n'est pas → It is not, however, an issue for the Commission as a prior to its entry into force.
    • Nous ne sommes pas → We don't know what we're going to do we don't know what we're going to do, we don't know what we're going to do, we don't know what we're going to do: we don't know what we're going to do.

  • 독일어한국어
    • https://www.amazon.de/hilfe1
      [11]
      https:// www.@@@ gmail. com
      [12] #
      https://www.amazon.de/hilfe1

참고로 모 비속어를 번역한 것도 있다.[13]
  • 한국어러시아어
    • 라랄라라라라라 라라라 라라라라라라라라 라라 라라라라 라라라 라라라 → Вот люди, которые сказали: "Мы сказали за то, что они сказали, что они ладили об этом". [14]

6. 관련 문서



7. 기타


업데이트된 이후 오히려 번역기능이 떨어졌다는 의견도 간간히 보이는 중이다. 또 세세한 부가기능도 줄어들었는데, 일본어 번역의 경우 쉼표도 일본식(、)으로 해주다가 이젠 한국식 쉼표(,)로 해버려서 불편하다는 의견이 종종 보인다. 이모티콘을 문장에 끼워넣어 번역할 경우 번역퀄리티가 이상하게 나오기도 하니 어 점도 유의해야 한다. 번역된 글의 띄어쓰기 오류도 표시된다.
오역이 은근 있긴 하지만 문장 번역시 제법 매끄럽게 해주는 편이어서 의외로 쓰기 편하다는 평도 제법 있는 상황. 이미지 번역 기능도 있긴 하지만 그냥 일반 번역 기능에 비해선 매우매우 후달리는데다 글씨체가 정자가 아니라 손글씨(...)거나, 흐릿하게 쓰여있거나 할 경우 더 엉망인 퀄리티의 번역 결과물이 출력되니 기대하지 말자.
문장 읽어주기의 한국어 발음이 꽤 괜찮은지라 일부 이용자는 특정 지역의 대중교통 안내방송[15]은 차라리 파파고 시스템을 이용하면 낫겠다는 의견을 보이기도 한다.[16] 실제로도 띄어쓰기와 쉼표, 마침표, 엔터를 적절히 배치하면 꽤 우수하고 효율적인 안내방송이 완성된다. 거기다 성우를 불러 녹음하는 방식의 안내방송이 가진 단점인 업데이트 시간이 느린 점과 보이스웨어의 단점인 또렷하지 않은 발음 과 기계가 읽어주는 것에 대한 불만족을 파파고 안내방송은 어느정도 해결할 수 있다.[17]
내비게이션을 '''네'''비게이션이라고 표기한다(...), 그리고 배스킨라빈스는 '''베'''스킨라빈스로 표기한다.
2019.11.05 업데이트로 오프라인 번역 기능(한국어, 영어, 일본어, 중국어 간체)이 추가되었다.
웹페이지를 번역하려면 앱을 강제하는 문제가 있다.
요즘 웹사이트에서 일본 보컬로이드 노래 커버 번역로이드 시리즈 등의 파파고 TTS로 만든 2차창작이 만들어지고 있다. 그러나 약 2017년 즈음엔 고객센터에서 파파고 음성을 활용한 2차창작이 가능하다고 답변이 왔었지만 약 2019년 부터는 고객센터에서 '''파파고 음성을 활용한 2차창작이 불가능'''하다고 답변이 온다.[18] 영상 컨텐츠에 목소리가 필요하던 사람들은 이 소식을 듣고, 네이버 클로바 등의 2차 창작이 허용된 TTS로 넘어가는 추세다.[19]
일본어↔중국어 번역에 한국어 중역을 거치는 것으로 보인다. 번역기 설정을 중국어↔일본어로 하고 번역할 문장을 입력하면 번역 결과 창에 가끔씩 한국어가 목격된다.

8. 관련 링크



[1] 촬영한 것이 아닌 PDF 형식.[2] 완전히 엉망진창으로 나오는 경우가 많고, 가뭄에 콩 나듯 '''이게 무슨 문장인지 아주 조금 알아먹을 수 있는 수준의''' 번역결과물도 오역이 꽤 보인다.[3] 2020년 8월 현재 일본어나 중국어 OCR 인식률은 구글 번역보다 소폭 떨어진다. 같은 이미지를 번역 시켰을때 특히 필기체 등에서는 구글 번역의 OCR 기능도 불완전함에도 파파고보다는 압도적으로 정확도가 높다. 100개의 한자를 인식시키면 파파고는 40개정도 번역되면 구글은 50자정도 인식이 된다.[4] 특히 프로그래밍 관련 내용에서 파파고가 약점을 드러낸다. 예시, 원문(클래스#s-3를 '학급'으로 번역했다는 것은 둘째치고 전체적인 의미도 생뚱맞다.) 동일한 문장에 대한 구글 번역[5] EX)꽤 즐거워보이네→なかなか楽しそう‘ですね’[6] 애초에 구분하기가 어렵긴하지만 '오빠'와 '형 님'의 구분이 힘들다.[7] 소문자 L이 아니라 대문자 i이다.[8] rnasterpiece하고 clog는 네이버 직원이 결과값을 직접 입력한 것으로 추정된다. 따라서 오역이라기보다는 의도적인 번역 결과라고 하는게 옳다. 실제로 rnasterpiece하고 clog를 입력하고 한국어로 번역하면 띵작, 댕댕이라고 나온다.[9] 영어→한국어에 한국어를 입력하면 가끔 이상한 말이 나온다. 구글도 예전에는 저렇게 입력하면 '옛날에 한조가 죽었어'가 나왔다.[10] 이외에도 “착한 사람”, “걱정한 사람” 등을 쳐도 저렇게 나오는데, “한”이라는 글자가 “한국”이 되는 것으로 추정된다.[11] 독일 아마존닷컴의 고객센터 페이지[12] 이전에는 @@@ 대신 특정 개인의 이메일 주소가 나왔었다. 자꾸만 자신과 관련 없는 아마존 관련 메일이 들어오는 걸 이상하게 여긴 해당 주소의 소유자가 네이버 측에 항의를 넣어 임시조치해 둔 것.[13] 참고로 ゾーン은 Zone을 가타카나로 옮긴 것일 뿐이다. 절대 그것과는 관련이 없다. 그리고 ゾーッ이란 단어는 애초에 없다. 이유는 촉음으로 끝나는 단어가 없기 때문.[14] 직역하면 보라 그들이 말하는 것은 꾸며낸 것에 불과하니라라는 뜻이다. [15] 시내버스나 도시철도[16] 우스갯소리로 네이버가 파파고 시스템을 이용해 안내방송 사업에 진출해도 된다는 말도 있다.[17] 다만 파파고 역시 일부 숫자에 한해서는 개선이 필요한 것으로 보인다. 가령 119안전센터와 같은 명칭은 백십구안전센터로 읽고, 띄어쓰기를 해줘도 일-일-구가 아닌 일일-구로 빠르게 읽는 편.[18] 파파고 준수사항 문서에도 비영리적 사용을 금한다는 표기가 추가되었다. 답변이 뒤늦게 바뀐 까닭은 그때 당시 해당 고객상담 담당자가 성우와의 계약을 정확히 확인하지 않았기 때문이다. 대신 TTS를 활용한 2차창작은 클로바 더빙에서 조건부로 허용한다.[19] 단, 왜곡과 재편집이 금지되므로 조교는 불가능하다.