Recent Posts
Recent Comments
Link
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Tags
more
Archives
Today
Total
관리 메뉴

남의 언어학 공부

한국어 음운망 공유 Phonological Neighborhood Network for Korean 본문

Corpus Phonology

한국어 음운망 공유 Phonological Neighborhood Network for Korean

(admin) 2017. 11. 4. 06:34

#########

 

The poster presented at conSOLE 2018, University College London

Phonotactic Difference by Lexical Strata: A Case from Korean Phonological Neighbourhood Network Analysis

 

conSOLE 2018 poster.pdf
다운로드

 

 

#########

 

(UPDATED 2023-02-19 에 업데이트함)

I generated a phonological neighbourhood network for Korean. And I share this .rdata file for research purposes.

한국어 렉시콘의 음운망을 만들었습니다. 연구목적으로 사용할 수 있도록 Rdata 파일을 공유합니다.

 

If you find it easier to work on a web application than using R, consider namsling.shinyapps.io/kpnn/ .

R을 사용하기보다 웹 기반에서 작업하시기를 선호하신다면 namsling.shinyapps.io/kpnn/ 이곳을 고려해보세요!

 

In a PNN, each word is represented as a node, and two nodes are connected (linked) if the two words corresponding to them are phonological neighbours.

음운망에서 각 단어는 절점을 이루고, 두 단어가 음운이웃을 경우 해당 절점이 연결됩니다.

 

See Vitevitch (2008) for the definition and psycholinguistic implication of the notion PNN.

음운망의 정의와 그것이 가지는 심리언어학적 시사점에 대해서는 Vitevitch (2008)을 참고하시기 바랍니다.

 

And See Luce (1986) if you haven't heard about the phonological neighbourhood.

음운이웃이라는 개념이 익숙하지 않으신 분들은 Luce (1986)을 참고하시기 바랍니다.

 

 

Korean_PNN_new.RData
3.78MB

 

 

 


 

 

Legacy version (R > 3.4.1). Prone to errors

아래 파일은 옛날 파일이기 때문에 오류가 있을 수 있습니다. 윗 파일과 달리 IPA 정보가 없고 인코딩이 "불명"입니다. 자료보존 목적에서 남겨두었으나 다운로드하지 마세요.

Korean PNN.RData
다운로드

 

 

 


 

 

 

 

 

[RAW DATA]

All monomorphemic words from Standard Korean Dictionary (retrieved June 25, 2017) that have the absolute frequency of 10 or larger.

표준국어대사전 (2017년 6월 25일 기준)에 등재된 모든 단일어 중 절대 출현빈도가 10 이상인 어휘들이 대상입니다.

 

   Count  Proportion 
 Native Korean (순우리말)  3,493   13.05%
 Sino Korean (한자어)  20,748  77.54%
 Foreign (외래어)  2,518  9.41%
 Total (총계)  26,759  100%

 

 

Absolute frequency data is from Kang & Kim (2009) (The Usage frequency in the Korean Language). 

절대 출현빈도는 강범모 & 김흥규 (2009) "한국어 사용빈도"를 사용했습니다.

 

For Sino-Korean words, I dismissed the morphological analysis provided in SKD (eg. 가계부 is seen as if a monomorphemic word rather than following SKD's analysis of 가계+부).

한자어의 경우, 대사전에서 제공하는 형태소분석을 무시하였습니다. (예컨대, "가계부"라는 단어는 대사전에 등재된 형태인 "가계+부"로 보지 않고 단일어로 처리하였습니다.)

 

[CONTENTS]

.Rdata file that can be opened with R(>4.2.0). It requires the R package "igraph."

R(>4.2.0) 에서 열리는 .Rdata 파일입니다. R 패키지인 'igraph'를 이용합니다.

 

The file has three objects.

이 파일에는 3개의 R object가 있습니다.

 

word.list: It is a data.frame of Korean words. Each row is a Korean word, with the following columns: entry in the Korean orthography, klattese transcription, ipa transcription, absolute frequency, type (lexical strata, i.e., native, sino-korean or foreign), and degree (the number of phonological neighbours). Both types of transcriptions represent naive UR converted naively from orthographic forms.

이것은 한국어 어휘로 구성된 data.frame 입니다. 각 단어마다 한글로 된 단어형태 entry, Klattese 방식으로 표시된 발음형태 klat, IPA 방식으로 표시된 발음형태 ipa, 절대빈도정보 afreq, 어휘층위(즉, 고유어, 한자어 혹은 외래어) 정보 type, 그리고 음운이웃 개수 degree 가 제공됩니다. IPA와 Klattese 전사방식 모두 한글을 있는 그대로 변환한 기저형입니다.

 

net: the PNN generated from word.list. An igraph object.

word.list를 기초로 생성한 음운망입니다. igraph object입니다.

 

net2: The network in which those nodes with the degree of 0 are removed from net

net으로부터 degree가 0인 node (즉 다른 어떤 node와도 연결되어 있지 않은 node)를 제거한 네트워크입니다. 

 

 

아래를 참조해주세요.

 

[ON KLATTESE]

IPA contains non-ASCII characters that make your day more tiring. Describing the phonemic system of a single language, without any consideration of other languages in mind, does not require all these fancy characters. I chose Klattese as an alternative for IPA, which only uses ASCII symbols to represent phonemes in Korean. The concordance table between the Korean orthography and Klattese is presented below (from Nam (2017:42))

IPA에 포함된 비 ASCII 문자들은 R에서 돌리기 번거롭습니다. 다른 언어를 상정하지 않고 오직 하나의 언어의 음소체계를 문자화하는 과정이므로 굳이 비 ASCII 문자들이 필요하지 않습니다. 그래서 IPA 대신 Klattese 체계를 사용했습니다. Klattese 체계는 ASCII 기호들만을 사용하여 한국어의 음소들을 표기합니다. 한글 - Klattese 대응표를 아래 표시하였습니다 (출처: Nam(2017:42)). 

 

 

 

 

 

[FEATURES]

- Each word contains the information on lexical stratum. 각 어휘별로 고유어/한자어/외래어 정보가 들어있습니다.

 

 

[POSSIBLE APPLICATIONS 사용 예시]

- This may help you choose target words (words that have many phonological neighbors / fewer phonological neighbors) for a psycholinguistic experiment. 

   심리언어학 실험하실 때 고이웃단어 저이웃단어 선정하기 용이합니다.

 

- Make your own function to: generate a non-word with specific degree / locate a word in a certain stratum with a certain number of phonological neighbors

  자신만의 함수를 제작하여, 특정 음운이웃 수를 가지는 비단어를 생성하거나 / 특정 층위, 특정 음운이웃 수를 만족하는 실제 단어를 선정하실 수 있습니다.

 

- Draw a network of sub-lexicons for fun. 

  렉시콘의 일부를 네트워크로 그리면 재밌습니다. (?)

 

 

[REFERENCES]

Csardi, G., & Nepusz, T. (2006). The igraph software package for complex network research. InterJournal, Complex Systems, 1695. Retrieved from http://igraph.org

 

Luce, P. A. (1986). Neighborhoods of words in the mental lexicon. (Research on Speech Perception, Technical Report No. 6). Bloomington, IN: Speech Research Laboratory, Department of Psychology, Indiana University.

 

 

 

Nam, S. (2017). The Structures of English and Korean Phonological Networks: Small-world Networks with Assortative Mixing by Degree. Chung-Ang University, Department of English Language and Literature, Seoul. Retrieved from http://dcollection.cau.ac.kr//jsp/common/DcLoOrgPer.jsp?sItemId=000000198203

National Institute of Korean Language. (2009). Standard Korean Language Dictionary. Seoul. Retrieved from http://stdweb2.korean.go.kr/main.jsp

Vitevitch, M. S. (2008). What can graph theory tell us about word learning and lexical retrieval. Journal of Speech, Language, and Hearing Research, 51(2), 408-422.

 

 

 

Comments