말뭉치

 


1. 개요
2. 학자
3. 추천 사이트
4. 문헌
4.1. 모음집 (compilation)
4.2. 예문을 응용한 문법책
4.3. 담화 분석
4.4. 단어 빈도
4.5. 사전
4.6. 말뭉치 사용법
5. 관련 문서


1. 개요


Corpus. 영단어를 그대로 읽을 때는 '코퍼스'라는 표기를 쓴다.
언어학, 사회학 등 조사적 목적에 의해서 특정 집단 내에서 사용한 단어들을 모아서 정리해둔 것이다. 컴퓨터의 발달로 말뭉치를 통한 데이터 수집과 분석이 용이해지면서 중요성이 부상했다.
영어, 특정 단어나 연결어 등의 사용빈도 등을 통해서 더 자연스러운 표현으로 바꾸는 일, 사전 편찬이나 사회적으로 이슈가 되었던 것을 객관적으로 확인할 수 있다는 점에서 그 쓸모가 발휘된다.

2. 학자


  • Bas Aarts
  • Geoffrey Leech: 2014년 작고.
  • Gerald Nelson
  • Gerry Knowles
  • Jan Svartvik
  • Randolph Quirk: 2017년 작고.
  • Sidney Greenbaum: 1996년 작고.

3. 추천 사이트


국어 말뭉치
미국식 영어
영국식 영어
Bank of English

British
National
Corpus
British National Corpus: 통칭 BNC. 코퍼스 검색 (여기서 무료로 가입하고 사용가능) 단어 빈도 참조 사이트 wav 및 textgrid 파일 다운로드 (양많음) 대본 출처
DCPSE
Diacronic Corpus of Present-day Spoken English (유료 CD)
ICE
(International
Corpus of English)
영어를 제1언어나 공용어로 사용하는 국가의 영어를 공시적으로 비교하고자 구축한 말뭉치. 구축한 대상은 영국 (유료 CD), 호주, 카메룬, 캐나다, 케냐, 말라위, 탄자니아, 피지, 홍콩, 인도, 아일랜드, 자메이카, 케냐, 몰타, 말레이시아, 뉴질랜드, 나이지리아, 파키스탄, 필리핀, 시에라리온, 싱가포르, 남아공, 스리랑카, 트리니다드 토바고, 그리고 미국. 출판물 목록
Lancaster/IBM
Spoken English
Corpus
통칭 Spoken English Corpus (SEC). 하단 참조.
Lancaster-Oslo/Bergen Corpus
미국식 영어인 Brown에 대응되는 영국식 영어 말뭉치. 통칭 LOB. 다운로드
London-Lund
영국영어 대화 말뭉치. 다운로드
ukWaC
Web as Corpus. 영국 웹사이트에서 모은 말뭉치. CQPweb이나 [Leeds에서 검색 가능.
홍콩 구어영어
표준중국어

4. 문헌



4.1. 모음집 (compilation)


London-Lund
Svartvik and Quirk, (1980) A Corpus of English Conversation (Lund Studies in English, 56).
London-Lund 100가지 대화문에서 일부 뽑은 34가지 모음.
SEC
Knowles et al, (1996;2017) A Corpus of Formal British Speech: The Lancaster/IBM Spoken English Corpus, Longman 매뉴얼
통칭 Spoken English Corpus (SEC). 53가지 단문 모음에 약 53,000단어. 1980년대 BBC 라디오 방송 프로그램을 모아 놓았다. 구성은 뉴스, 연설, 소설이나 시 낭독 등. 소설에는 노벨문학상 수상자 도리스 레싱의 작품 ''Through the Tunnel''을 전문 수록해 놨다. 2017년에 양장본 2쇄가 나왔다 (96년판과 내용은 동일). Routledge 아니면 Book Depostiory에서 직접 주문해야 하며 명색이 학술 서적인지라 가격이 20만원 넘는다 (페이퍼백은 그거 절반 정도). 참고로 양장본 책 두께가 수학의 정석 반 정도에 크기는 A4 반 정도. 본래 TTS 제작하려고 만든 거라 인토네이션 기호가 들어가 있다는 게 특징. 오디오 파일 (wav), Praat용 textgrid나 본문 텍스트 파일이 필요한 사람은 여기서 다운받으면 된다 (sign up에서 아이디와 비밀번호 등록하고 인증메일 확인하고 로그인하면 된다; 다만 A12 앞쪽 일부, G01 중간 일부, G05 뒤쪽 일부가 잘리는 등 조금씩 빠진 부분이 있다).

4.2. 예문을 응용한 문법책


British
National
Corpus
Longman Grammar of Spoken and Written English
Oxford Learner's Grammar
ICE-GB
Aarts, (2011) Oxford Modern English Grammar 무료 다운로드
ICE-GB를 참조한 영국식 영어 및 미국식 영어 기술 문법서 (단 영국식 영어가 거의 대부분). 예문은 ICE-GB 및 뉴스에서 응용했으며 원서 뒷부분 부록에 출처가 다 실려 있다.
한국문화사에서 나온 번역본도 있으며 (2017; 역자 강문구 한창훈) 제목은 현대영문법이다. 번역본에는 예문 출처를 비롯한 부록 일체가 실리지 않음 (참고문헌 및 색인만 실림).
Greenbaum, (1996) The Oxford English Grammar
ICE-GB의 다른 부분에서 예문 응용. Aarts와 마찬가지로 출처가 실려 있다. 저자의 서거로 인해 개정판은 나오지 않음.
Weiner, (2000) The Oxford Reference Grammar
The Oxford English Grammar의 축약판.
Greenbaum and Nelson, (2013) An Introduction to English Grammar
역시 ICE-GB의 다른 부분에서 예문 응용. 출처는 따로 실리지 않음. 최신 개정판은 2018년에 나왔다.
Nelson, (2001) English: an essential grammar
London-Lund
Greenbaum and Quirk. (1990) A Student's Grammar of the English Language. Longman.
'''고급영문법의 본좌'''. 원조는 1985년에 나온 A Comprehensive Grammar of the English Language으로, 여러번 개정을 거쳐 가장 최근에 나온 책은 1996년판 Student's 버전이다.
번역본으로 이홍배 역 (1994) 새로운 대학영문법이 있으나 현재는 절판됨.
대안으로 최인철 저 실용 영문법 백과사전이 이 책을 참고해서 씀. 워크북

4.3. 담화 분석


British
National
Corpus
Conversation in Context: a corpus-driven appraoch
Emotion Talk Across Corpora
London-Lund
An Introduction to Spoken Interaction
English Discourse Particles: Evidence from a corpus
SEC
Wichmann, Anne. (2013) Intonation in Text and Discourse: Beginnings, middles and ends. Routledge.
SEC의 초분절적 요소, 특히 인토네이션을 중심으로 분석함.

4.4. 단어 빈도


British
National
Corpus
Leech et al, (2001) Word Frequencies in Written and Spoken English: based on the British National Corpus 도서 정보 pdf txt파일 무료 다운로드
LOB
Johansson et al. (1989) Frequency Analysis of English Vocabulary and Grammar: Based on the LOB Corpus: Tag Frequencies and Word Frequencies (Volume 1)
Johansson et al. (1989) Frequency Analysis of English Vocabulary and Grammar: Tag Combinations and Word Combinations v. 2: Based on the LOB Corpus
London-Lund
Brown, Gordon. (1984) A frequency count of 190,000 words in the London-Lund Corpus of English Conversation.

4.5. 사전


British
National
Corpus
Longman Dictionary of Contemporary English
Chambers 21st Dictionary
능률롱맨 영한사전

4.6. 말뭉치 사용법


British
National
Corpus
Hoffmann et al. (2008) Corpus Linguistics with BNCweb - a Practical Guide. Peter Lang.
BNCweb 이용 참고 서적. CQPweb 검색도 같은 구조로 돌아가니 참고.
ICE-GB
Nelson et al. (2002) Exploring Natural Language: Working with the British Component of the International Corpus of English. John Benjamins Publishing Company
ICE-GB (ICE 영국) 이용 참고 서적. ICE-GB의 각 지문이 어디서 따온 건지 다 나와있다. pdf 무료 다운로드
LOB
Johansson, Stig. (1986) The Tagged LOB Corpus: Users' Manual.
London-Lund
Svartvik, Jan. (1990) The London Corpus of Spoken English: Description and Research (Lund Studies in English 82). Lund University Press.

5. 관련 문서



분류