남의 언어학 공부
한국어 음운망 공유 Phonological Neighborhood Network for Korean 본문
#########
The poster presented at conSOLE 2018, University College London
Phonotactic Difference by Lexical Strata: A Case from Korean Phonological Neighbourhood Network Analysis.
#########
(UPDATED 2023-02-19 에 업데이트함)
I generated a phonological neighbourhood network for Korean. And I share this .rdata file for research purposes.
한국어 렉시콘의 음운망을 만들었습니다. 연구목적으로 사용할 수 있도록 Rdata 파일을 공유합니다.
If you find it easier to work on a web application than using R, consider namsling.shinyapps.io/kpnn/ .
R을 사용하기보다 웹 기반에서 작업하시기를 선호하신다면 namsling.shinyapps.io/kpnn/ 이곳을 고려해보세요!
In a PNN, each word is represented as a node, and two nodes are connected (linked) if the two words corresponding to them are phonological neighbours.
음운망에서 각 단어는 절점을 이루고, 두 단어가 음운이웃을 경우 해당 절점이 연결됩니다.
See Vitevitch (2008) for the definition and psycholinguistic implication of the notion PNN.
음운망의 정의와 그것이 가지는 심리언어학적 시사점에 대해서는 Vitevitch (2008)을 참고하시기 바랍니다.
And See Luce (1986) if you haven't heard about the phonological neighbourhood.
음운이웃이라는 개념이 익숙하지 않으신 분들은 Luce (1986)을 참고하시기 바랍니다.
Legacy version (R > 3.4.1). Prone to errors
아래 파일은 옛날 파일이기 때문에 오류가 있을 수 있습니다. 윗 파일과 달리 IPA 정보가 없고 인코딩이 "불명"입니다. 자료보존 목적에서 남겨두었으나 다운로드하지 마세요.

[RAW DATA]
All monomorphemic words from Standard Korean Dictionary (retrieved June 25, 2017) that have the absolute frequency of 10 or larger.
표준국어대사전 (2017년 6월 25일 기준)에 등재된 모든 단일어 중 절대 출현빈도가 10 이상인 어휘들이 대상입니다.
Count | Proportion | |
Native Korean (순우리말) | 3,493 | 13.05% |
Sino Korean (한자어) | 20,748 | 77.54% |
Foreign (외래어) | 2,518 | 9.41% |
Total (총계) | 26,759 | 100% |
Absolute frequency data is from Kang & Kim (2009) (The Usage frequency in the Korean Language).
절대 출현빈도는 강범모 & 김흥규 (2009) "한국어 사용빈도"를 사용했습니다.
For Sino-Korean words, I dismissed the morphological analysis provided in SKD (eg. 가계부 is seen as if a monomorphemic word rather than following SKD's analysis of 가계+부).
한자어의 경우, 대사전에서 제공하는 형태소분석을 무시하였습니다. (예컨대, "가계부"라는 단어는 대사전에 등재된 형태인 "가계+부"로 보지 않고 단일어로 처리하였습니다.)
[CONTENTS]
.Rdata file that can be opened with R(>4.2.0). It requires the R package "igraph."
R(>4.2.0) 에서 열리는 .Rdata 파일입니다. R 패키지인 'igraph'를 이용합니다.
The file has three objects.
이 파일에는 3개의 R object가 있습니다.
word.list: It is a data.frame of Korean words. Each row is a Korean word, with the following columns: entry in the Korean orthography, klattese transcription, ipa transcription, absolute frequency, type (lexical strata, i.e., native, sino-korean or foreign), and degree (the number of phonological neighbours). Both types of transcriptions represent naive UR converted naively from orthographic forms.
이것은 한국어 어휘로 구성된 data.frame 입니다. 각 단어마다 한글로 된 단어형태 entry, Klattese 방식으로 표시된 발음형태 klat, IPA 방식으로 표시된 발음형태 ipa, 절대빈도정보 afreq, 어휘층위(즉, 고유어, 한자어 혹은 외래어) 정보 type, 그리고 음운이웃 개수 degree 가 제공됩니다. IPA와 Klattese 전사방식 모두 한글을 있는 그대로 변환한 기저형입니다.
net: the PNN generated from word.list. An igraph object.
word.list를 기초로 생성한 음운망입니다. igraph object입니다.
net2: The network in which those nodes with the degree of 0 are removed from net.
net으로부터 degree가 0인 node (즉 다른 어떤 node와도 연결되어 있지 않은 node)를 제거한 네트워크입니다.
아래를 참조해주세요.

[ON KLATTESE]
IPA contains non-ASCII characters that make your day more tiring. Describing the phonemic system of a single language, without any consideration of other languages in mind, does not require all these fancy characters. I chose Klattese as an alternative for IPA, which only uses ASCII symbols to represent phonemes in Korean. The concordance table between the Korean orthography and Klattese is presented below (from Nam (2017:42))
IPA에 포함된 비 ASCII 문자들은 R에서 돌리기 번거롭습니다. 다른 언어를 상정하지 않고 오직 하나의 언어의 음소체계를 문자화하는 과정이므로 굳이 비 ASCII 문자들이 필요하지 않습니다. 그래서 IPA 대신 Klattese 체계를 사용했습니다. Klattese 체계는 ASCII 기호들만을 사용하여 한국어의 음소들을 표기합니다. 한글 - Klattese 대응표를 아래 표시하였습니다 (출처: Nam(2017:42)).
[FEATURES]
- Each word contains the information on lexical stratum. 각 어휘별로 고유어/한자어/외래어 정보가 들어있습니다.
[POSSIBLE APPLICATIONS 사용 예시]
- This may help you choose target words (words that have many phonological neighbors / fewer phonological neighbors) for a psycholinguistic experiment.
심리언어학 실험하실 때 고이웃단어 저이웃단어 선정하기 용이합니다.
- Make your own function to: generate a non-word with specific degree / locate a word in a certain stratum with a certain number of phonological neighbors
자신만의 함수를 제작하여, 특정 음운이웃 수를 가지는 비단어를 생성하거나 / 특정 층위, 특정 음운이웃 수를 만족하는 실제 단어를 선정하실 수 있습니다.
- Draw a network of sub-lexicons for fun.
렉시콘의 일부를 네트워크로 그리면 재밌습니다. (?)
[REFERENCES]
Csardi, G., & Nepusz, T. (2006). The igraph software package for complex network research. InterJournal, Complex Systems, 1695. Retrieved from http://igraph.org
Luce, P. A. (1986). Neighborhoods of words in the mental lexicon. (Research on Speech Perception, Technical Report No. 6). Bloomington, IN: Speech Research Laboratory, Department of Psychology, Indiana University.
Nam, S. (2017). The Structures of English and Korean Phonological Networks: Small-world Networks with Assortative Mixing by Degree. Chung-Ang University, Department of English Language and Literature, Seoul. Retrieved from http://dcollection.cau.ac.kr//jsp/common/DcLoOrgPer.jsp?sItemId=000000198203
National Institute of Korean Language. (2009). Standard Korean Language Dictionary. Seoul. Retrieved from http://stdweb2.korean.go.kr/main.jsp
Vitevitch, M. S. (2008). What can graph theory tell us about word learning and lexical retrieval. Journal of Speech, Language, and Hearing Research, 51(2), 408-422.
'Corpus Phonology' 카테고리의 다른 글
한국어 자음-모음 연쇄의 어휘계층 간 비교 (0) | 2018.10.31 |
---|---|
영어와 한국어 음운이웃 네트워크의 정량적 분석 (0) | 2018.03.09 |