남의 언어학 공부
한국어 자음-모음 연쇄의 어휘계층 간 비교 본문
This posting is for the Korean readers of Korean Journal of Linguistics. It introduces the method that utilizes R to conduct a quantitative analysis of the Korean lexical strata.
이 포스팅은 학술지 "언어"에 게재된 논문 "한국어 자음-모음 연쇄의 어휘계층 간 비교" 에 사용된 R script 들을 설명하기 위한 것입니다.
남성현, 김선회. (2018). 한국어 자음-모음 연쇄의 어휘계층 간 비교. 언어, 43(3), 485-506
이곳에서 논문과 관련된 추가 정보를 얻을 수 있습니다.
1. 원자료 및 사전작업 (어휘계층 분류 및 자모분리)
1.1 어휘계층
원자료는 국립국어원의 표준국어대사전을 사용하였습니다.
모든 표제어 가운데 단일어(monomorphemic words) 만을 연구의 대상으로 하였고, 이것들을 고유어-한자어-외래어로 구분되었으며, 이러한 구분의 기준은 1차적으로, 표준국어대사전에 포함된 '원어정보'입니다.
표준국어대사전에서는, 한자어와 외래어에 대해 '원어정보'를 제공합니다. 모든 한자어는 그것의 한자 형태, 예컨대 '소년' 이라는 한자어의 경우는 '원어정보' 항목에 少年이라는 항목이 적혀 있습니다. 한편 외래어는 이 '원어정보'가 로마자로만 구성되어 있습니다. 예를 들어 '콜라'라는 표제어의 '원어정보'는 cola 입니다.
이에 따라 1차적으로 원어정보에 한자어만 있을 경우는 한자어, 로마자만 있을 경우에는 외래어로 간주하였습니다. (한자만 있다, 로마자만 있다 등은 정규식을 이용하면 쉽게 걸러낼 수 있습니다.) 한편 고유어의 경우는 온라인 표준국어대사전에서 고유어 목록을 제공하고 있기 때문에, 여기에 올라 있는 어휘들을 고유어로 간주하였습니다. 온라인 표준국어대사전의 고유어 목록의 주소는 http://stdweb2.korean.go.kr/section/origin_list.jsp 입니다.
표준국어대사전에서 어휘계층을 분류한 한국어 렉시콘은 http://namsling.tistory.com/9 에서 다운로드받으실 수 있습니다. 본 연구에서 사용된 어휘의 목록도 이 링크에서 다운로드받으실 수 있는 "한국어 음운망"을 기초로 하였습니다.
1.2 자모분리
자모분리의 방식은 남성현(2017)의 방식과 동일합니다. R 패키지인 KoNLP의 함수 convertHangulStringToJamos를 사용하였습니다. 이 함수는 한국어 어휘를 입력받아서 음절별로 자모분리된 list 값을 출력합니다. 초성의 'ㅇ'도 함께 제거했습니다.
예를 들어 "낙인" 이라는 한국어 어휘를 입력한 명령어 convertHangulStringToJamos("낙인") 은, "ㄴㅏㄱ" "ㅇㅣㄴ" 을 출력합니다. 이후 list를 구성하는 character vector의 첫번째 문자가 'ㅇ'일 경우 이것을 따로 제거할 수 있습니다.
2. 다차원 척도법(multidimensional scale, MDS)
2.1 Metric MDS
기본적으로 포함되어 있는 패키지인 stats의 cmdscale 함수를 사용합니다.
data <- read.csv(file=file.choose(), row.names = 1, header=TRUE)
data.dist = dist(data)
metric = cmdscale(data.dist) # Stats 패키지
plot(metric, typ = 'n')
text(metric, rownames(metric))
2.2 Non-metric MDS
MASS 패키지의 isoMDS 함수를 사용합니다. 코드의 첫번째 줄에서 MASS패키지를 불러옵니다. isoMDS 함수는 Kruskal's Non-metric Multidimensional Scaling을 구현하는 함수입니다. object data에 들어가야 하는 것은 자모분리된 한국어 단어의 목록으로 된 csv파일입니다. 코드 두번째 줄에서 입력됩니다.
library(MASS)
data <- read.csv(file=file.choose(), row.names = 1, header=TRUE)
data.dist = dist(data)
3. CV 연쇄에서의 자음 분포
작성중입니다. 세부적인 문의사항이 있으신 경우 제게 메일을 보내십시오. 주소는 stan.nam98 골뱅이 지메일 닷 컴입니다.
참고문헌
남성현. (2017). The Structures of English and Korean Phonological Networks. 석사학위논문, 중앙대학교, 서울. ( http://www.dcollection.net/handler/cau/000000198203 에서 접근)
남성현, 김선회. (2018). 한국어 자음-모음 연쇄의 어휘계층 간 비교. 언어, 43(3), 485-506
'Corpus Phonology' 카테고리의 다른 글
영어와 한국어 음운이웃 네트워크의 정량적 분석 (0) | 2018.03.09 |
---|---|
한국어 음운망 공유 Phonological Neighborhood Network for Korean (0) | 2017.11.04 |