TTS

 


1. Text to Speech
1.1. 종류 및 사이트
1.2. 사용 사례
2. 소녀시대 유닛 그룹 '태티서'
3. 아우디 TT의 스포츠버전


1. Text to Speech


줄임말로는 TTS, 우리말로는 '음성합성 시스템'이라 부른다. 보통 TTS라고 하면 이것을 의미한다.
컴퓨터의 프로그램을 통해 사람의 목소리를 구현해내는 것으로, 성우 없이도 거의 모든 단어와 문장의 음성을 쉽게 구할 수 있다. 하지만 사전녹음된 목소리 자료를 기반으로 쓰는 만큼 억양이 자연스럽지 못하다는 단점이 있다. 국내의 대표적 TTS 프로그램 업체로는 타입캐스트, 프로소디, 셀바스AI보이스웨어가 있다. 보이스웨어는 한국 내에서는 거의 상표의 보통명사화 수준. 하지만 올바른 용어는 TTS이다.
해외에서는 리드스피커와 브라우저어라우드와 같이 웹기반 서비스 솔루션이 웹사이트를 읽어주는 TTS 프로그램으로 대중화되었다. 일본에서는 지방자치단체 홈페이지의 70%이상이 TTS 음성서비스를 제공한다. 현재 한국에선 다양한 TTS 프로그램 제공업체 중 웹톡스, 보이스몬과 같이 웹기반 서비스와 솔루션을 함께하는 프로그램들이 각광받는다.
보컬로이드와 비슷하다고 생각할 수 있다. 하지만 보컬로이드는 소리, 억양 하나하나를 유저가 직접 만들므로 복잡하지만, TTS는 글자를 입력하면 쉽게 바로 음성으로 출력된다는 차이점이 있다. 물론 그만큼 TTS는 발음이 부정확하고 억양이 부자연스럽다는 단점도 있다.
하지만 요즘 몇몇 TTS는 꽤나 자연스럽고 부드럽게 목소리를 출력한다. 구글 산하의 WaveNet은 딥러닝 기반의 TTS 시스템으로, 연구를 거듭한 결과 성우가 직접 읽은 문장보다도 더욱 자연스러운 문장을 구사할 수 있게 되었다고 한다. 실제로 목소리를 비교해보면 어느 것이 성우의 목소리이고, 어느 것이 TTS인지 구별할 수 없을 정도. 심지어 별다른 입력 없이 무작위한 발음을 중얼거리게 만들 수도 있는데, 분명 이해할 수 없는 문장임에도 불구하고, 실제 사람의 중얼거림처럼 호흡과 간격이 매우 자연스럽다.
단, 대부분 TTS는 현재 개인 고객에게 제품을 팔지 않기 때문에, 개인이 TTS를 사용하려면 어둠의 경로에서 구해야 하는 경우가 대부분이다. TTS는 3가지 요소로 구성된다. 첫째가 SAPI라는 윈도우 구성요소, 둘째가 보이스 엔진, 셋째가 플레이어다. 비디오 플레이어에 비유하면 차례대로 SAPI는 운영체제 그 자체, 보이스 엔진은 코덱쯤, 플레이어는 말 그대로 플레이어이다.
SAPI는 대체로 윈도우를 깔면 자동으로 깔려있다. 제어판을 뒤적거려본 유저라면 알 수 있는데, '''제어판 → 접근성 → 접근성 센터 → 디스플레이가 없는 컴퓨터 사용'''에 들어가보면, '''텍스트 음성 변환''' 이라는 항목이 있다. 이 창을 띄워보면 한 줄 문장을 작성하고 음성선택을 하는 곳이 있는데, 바로 이것이 TTS의 기본 구성원리다.
Microsoft Heami Desktop - Korean 이라고 나와있을 텐데, 이것이 SAPI 5.1 버전용 보이스 엔진인 '''혜미'''다. 이 제어판 항목에서는 긴글을 입력하지 못하지만, 바로 플레이어들을 이용하여, 긴 단락들을 읽어줄 수 있는 것이다. 참고로 예시는 Windows 8.1 기준으로, Windows XP는 Microsoft Sam, Windows VistaWindows 7은 Microsoft Anna가 존재한다. Windows 10의 경우에는 Windows 8.1과 동일하지만, 다른 언어 입력기를 설치하면 음성 데이터와 언어팩도 같이 설치되기 때문에 쉽게 변경이 가능하다.
대부분 TTS 플레이어들 자체[1]는 프리웨어인 경우가 많고, 사실상 TTS의 핵심이라고 할 수 있는 엔진[2]이 유료로 판매되는 핵심 파일이다. 한국어 엔진 중 가장 유명한 게 '''Junwoo'''와 '''Yumi'''다. 기본으로 윈도우에 깔린 혜미 같은 엔진들은 매우 기계적이어서 많이 듣기에 부자연스럽기 때문에, 대부분 따로 엔진을 구해야 만족스러운 결과가 나온다.
플레이어로 쉽게 구할 수 있는 것은 판옵프리터(Panopreter), 발라볼카(Balabolka), 텍스트얼라우드(TextAloud) 등이 있다. 앞의 두개는 프리웨어, 텍스트 얼라우드는 유료이다.
판옵프리터는 가장 프로그램이 가볍지만, 텍스트 분량이 너무 많으면 한꺼번에 읽을 수는 없다. 또한 중간부터 읽을 수가 없어서 항상 처음부터 읽어야 한다. 발라볼카의 장점은 자신의 PC에 깔린 엔진뿐만 아니라, 구글 번역기의 TTS엔진까지 사용해서 음성파일을 만들 수 있다는 것이다. 다만 프로그램이 무겁고, 굳이 음성파일을 만들지 않고 프로그램 내부에서 즉흥적으로 들을 경우, 문장 하나하나마다 앞부분의 음성이 약해지는 현상이 나타나 매우 듣기가 괴롭다. 마지막으로 텍스트 얼라우드는 프로그램도 무겁지 않고, 중간부터도 들을 수 있으며, 글의 맨 처음만 약해질 뿐 다른 곳은 다 그대로이다. 단점이라고는 유료라는 점뿐. 위 세 프로그램 모두 당연하게도 음성파일로 변환할 수 있다. 기본적으로 wav파일로 나오지만, 추가 설정을 통해 mp3로 바로 변환시켜줄 수도 있다.
여담이지만, 한국어로 맞춰놓고 영어를 쓰면 콩글리시를 들어볼 수 있다. 마찬가지로 영어 이외의 언어로 설정하고 영어를 쓰면 해당 국가의 억양이 들어간 영어 음성이 나온다. 현재 TTS 프로그램 중 영어 음성 전문 더빙이 가능한 서비스는 타입캐스트이며, 이를 위한 외국인 인공지능 성우 캐릭터가 마련되어 있다.
감정과 음 높낮이, 길이도 조절하여 딥러닝으로 합성가능한 TTS 프로그램도 나오기 시작했다 Prosody. 항목 참조.
일본 니코니코동화를 시작으로 TTS 실황 플레이가 유행하고 있다. 항목 참조.
2018년에는 성대모사까지 하는 모양이다. #

1.1. 종류 및 사이트


  • 보이스웨어
  • 타입캐스트
  • 셀바스AI
  • Prosody
  • 삼성 TTS[3][4]
  • 네이버 번역기네이버 사전
  • oddcast
  • 네오스피치
  • 아카펠라 그룹
  • Nuance
  • 소프토크
  • CeVIO(기능 중 일부)[5]
  • VOCALOID
  • VOICEROID
  • VoiceOver
  • 구글 번역기, 구글 TTS(모바일)
  • 빙 번역기
  • Verbose : 호주 기업인 NCH Software에서 나온 프로그램이다. 전부 영어로 되어 있으며, Windows에서만 작동하는 데다가 유료라는 한계가 있다.
  • 웹톡스 : 온라인 기반 서버 TTS 솔루션으로 다양한 웹사이트와 모바일서비스를 간단한 코드 삽입만으로 TTS를 이용해 읽어 줄 수 있도록 해주는 TTS 프로그램 솔루션. 20개국 40개 이상의 TTS 목소리로 제공되어 다국어 서비스가 필요한 모든 영역에 도움을 제공한다.
  • 보이스몬 : 노인, 저시력시각장애인, 인지장애인 등을 위해 웹사이트를 TTS를 이용해 읽어주는 스크린리더 기능과 고대비 색상반전 기능, 텍스트/화면 확대 기능, 하이라이트 기능 등을 갖춘 웹 접근성 서비스를 겸하는 TTS 프로그램이다.
  • https://clovadubbing.naver.com 클로바더빙

1.2. 사용 사례


  • T맵을 포함한 대다수 내비게이션
  • 한국철도공사 기차역의 KOBOS 시스템(예: 안내말씀 드립니다. XX시 XX분에 XX(으)로 가는 XXX호 XXXX 열차를 이용하실 고객께서는 타는곳 X번으로 가시기 바랍니다. 고맙습니다.)
  • 한국철도공사 누리로, 무궁화호 열차의 서원주역, 웅천역 도착 시 차내 자동방송
  • 일부 역 전동열차 진입 안내방송.
  • 한국철도공사 소속 광역전철 차량[6] 안내방송
  • 신분당선, 부산김해경전철 안내방송
  • 이비카드 등의 일부 시내버스 안내방송: 부산/경남권 시내 및 시외버스/광주/청주/전주/천안/아산/경주/원주 등 [7][8]
  • Siri - 애플 특성상 상술한 보이스오버 기반이다.
  • 기상청 일기예보 안내(ARS)서비스(131)
  • KBS 2FM 라디오 방송의 DJ 윌슨.
  • 동아일보: 뉴스를 한국어/영어/일본어/중국어로 읽어 준다.
  • 코리아타임즈: 영어 뉴스를 웹과 모바일앱에서 읽어 준다.
  • 미디어 다음에 가면 손석희의 목소리로 댓글을 읽어준다! 소름돋는 싱크로율을 자랑한다.
  • 난수방송 - 대한민국의 난수방송북한의 난수방송 등. 보안상의 이유로 성우를 잘 쓰지 않는다.
  • Twip, Toonation - 후원을 하면 후원자의 인사말을 읽어주는 바로 그 목소리. 초기에는 구글 TTS에서 제공하는 목소리밖에 없었지만 보이스웨어, 타입캐스트 등 다른 TTS와도 이용계약을 맺으면서 보이스웨어의 재민이(씩씩한강모), 타입캐스트의 찬구 등 다양한 목소리를 쓸 수 있게 되었다.
  • 그 외 다양한 음성 인식 비서 앱들
  • 스티븐 호킹의 목소리: 루게릭병폐렴의 합병증으로 인해 기관지 절개 수술과 목에 플라스틱 호흡 장치를 삽입해서 자기 스스로의 목소리를 내지 못하기 때문에 인텔의 후원을 받아 대신 사용했다. 다만 본인은 TTS가 미국 영어밖에 지원하지 못해서 자신의 용인발음을 사용하지 못하는 게 맘에 들지 않는다고 했다.
  • 병신TV 대부분은 초딩 목소리 음성으로 대사를 처리한다.
  • 도네이크 - Twip과 마찬가지로 후원 할 때 입력한 문구를 TTS가 읽어준다. 이쪽은 HTML5의 내장 TTS를 사용한다.
  • 트위치 스트리머들도 목 상태가 안 좋을 때 방송진행 음성으로 사용하는데 이와 같은 약빤 편집영상이 나오기도 한다(...). # # #
  • 동물의 숲 시리즈 - 게임 내에 등장하는 동물주민들의 목소리를 만드는 데 사용된다. TTS를 그대로 쓰지는 않고 화면에 표시될 대사를 철자단위로 약간씩 변형한 텍스트를 TTS가 읽게 하고 이를 변조해서 빠르게 재생한다.
  • Geno's Forest - XBrav가 슈퍼 마리오 RPG 꽃충이 숲 음악에 가사를 붙였다.
  • 한때 합필갤에선 이호성의 목소리를 내기 위해 보이스웨어를 사용하였다.[9]

2. 소녀시대 유닛 그룹 '태티서'




3. 아우디 TT의 스포츠버전




[1] 대략 많아봐야 용량이 30메가 정도밖에 안 한다[2] 용량이 200~500 메가 한다[3] Diotek TTS(전자사전 만드는 그 회사 맞다.)의 OEM판이다. 신분당선에서 안내방송에 사용되는 TTS도 이 회사 제품. 다만 삼성 TTS판의 상업적 사용은 금지되어있다.[4] 기본적으로 갤럭시 시리즈에만 탑재되는 TTS다. 그러나 그 어느 제조사도 장기적출(...)을 시도하는 사람들을 피할 수는 없다 보니, 결국 이 물건도 맛클의 한 유저에 의해 적출당해서 타사 폰으로 신나게 이식되고 있는 중이다. 심지어 루팅을 안 해도 정상적으로 설치되도록 마개조까지 가해놓았다.[5] 크게 '토크 보이스'와 '송 보이스'으로 나누어져있으며 그 중 '토크 보이스'가 TTS에 해당한다. [6] 1호선 본선, 광명셔틀, 수인분당선, 경강선, 동해선, 서해선, 3호선, 4호선, 경춘선, 경의중앙선, 경의선 (서울역 구간 서울역~신촌, 그외 일부)[7] 특히 마이비카드 삼원FA 단말기를 사용하는 곳[8] 삼원FA(마이비)를 쓰는 곳은 유미나 혜련을 주로 사용하며(어떤 곳은 유미와 혜련을 혼용해서 사용한다.), 그 외 지역은 셀바스TTS를 사용하는 것 같다.[9] 사용 방법은 간단하다. Korean → Junwoo → Speed → Slow를 적용하면 된다.