본문 바로가기

if (IR or NLP)

한자어가 우리말을 얼마나 애매 모호하게 만드는지 알아봤습니다.

한국어 언어 처리나 검색 엔진 튜닝을 하다 보면 '한자어' 때문에 발생하는 중의성이 정말 많습니다.
문제의 시작은 이렇습니다.
家 : 집 가
價 : 값 가
可 : 옳을 가
加 : 더할 가
假 : 거짓 가
... (이하 24개 생략)
-----> 한글로 쓰면 모두 '가'
'가'가 너무 극단적인가 하면 그렇지도 않습니다. '사'는 60개 입니다. 키보드로 '사' 치고 한자키 눌러 보면 알 수 있습니다.
상황이 이러하니, 어떤 단어가 '***가***' 이렇게 생겼다면 '가' 부분에서 29개의 의미적 중의성이 발생합니다. 

좀더 자세히 알아보려고 간단한 프로그램을 만들어 돌려봤습니다. 얘기 더 나가기 전에 용어 정리 한번 하는게 좋을 듯 합니다.
한자 : '家', '羅' 이런 것들
한자 독음 : 한자를 한글로 읽은 것. '가', '나'
한자어 : '한국', '남자', '여자' 처럼 한자 단어를 한글로 쓴것
이게 표준 용어 인지는 잘 모르고 제가 이렇게 쓰겠다는 겁니다.
먼저, 우리가 자주 쓰이는 한자를 어떻게 모을까... 궁리하다가 '천자문'을 긁었습니다. 그리고, 1000개의 한자에 대해서 한자 독음으로 치환해 보아봤습니다. 한자 독음 변환은 여기를 참고하면 됩니다.
천자문 한자를 독음한 결과는
사 : 20개 한자
조 : 16개 한자
상 : 15개 한자
수 : 15개 한자
기 : 14개 한자
이 : 12개 한자
경 : 12개 한자
...(생략)
체 : 1개 한자
첨 : 1개 한자
농 : 1개 한자
이렇게 321개의 한글 음절로 읽히고 있었습니다. 그러니까, 321개의 한글 음절은 평균적으로 3.12개(=1000/321)의 중의성을 가지고 있습니다.

그런데, 더욱 난감한 것은 이런 한자어 음절이 차지하는 비율입니다.
약 85,000개의 블로그 포스트에 대해서 프로그램을 돌려봤더니 한글 음절이 38,137,237번 출현했고 글자 개수는 3,019개 였고, 이 중에 천자문 한글 독음 321글자는 25,513,041번 출현으로 전체의 67%에 이르렀습니다.
그러니까, 11%(321/3019)의 한자 독음 음절이 전체 음절의 67%를 차지하고 있다는 말입니다. 헉스!
한글로 된 문장을 읽으면서 3분의 2의 글자 글자 마다 3~4개의 한자중 어떤 의미에 해당하는지, 우리는 갈등하고 있다 이것이죠.
3~4개 뿐만이 아닙니다. '가', '이', '을' 이런 글자는 한자어 외에 순우리말 조사로도 쓰이니까, 중의성은 더 늘어납니다. 게다가, '사', '조', '상' 이렇게 뜻이 여러개인 글자는 문장에 더 많이 나오겠죠.

한글자 짜리 한자 독음이 그렇다는 것이고, 단어로 가면 좀더 중의성을 체감할 수가 있습니다. 우리나라의 지역 이름은 거의 대부분 두글자짜리 한자어인데요. 중의성을 띄는 지역 이름이 부지기수입니다.
서울, 대전, 대구, 부산 부터 봐도, 서울 빼고는 모두 다른 뜻이 있는 단어들입니다. 수도권을 둘러 보면, 양주, 구리, 오산, 이천(숫자 이천말입니다.) 등등이 있구요. 강남역에 가면 택시 기사 아저씨들이 이렇게 외칩니다.
"분당 만원!"
10분만 가도 10만원입니다.

이렇게 된 이유는, 한자를 한글로 표기하는 과정에서 발음이 특정 음절로 수렴되는 현상이 일어난 것입니다.
중국어에는 한국어에는 없는 발음들이 존재합니다. 그 반대의 경우도 물론 있겠지요. 없는 발음도 한글로 표기를 해야 하니 수렴이 현상이 일어나게 됩니다. 영어 'r'발음과 'l'발음이 모두 'ㄹ'로 표기되는 것과 마찬가집니다. 그리고, 중국어에는 성조도 있습니다.
또, 훈민정음 이래로, 아니 그 이전부터 한자 1개에 독음 1음절이 지켜지고 있는데, 원래 중국어는 안 그렇거든요. 예를 들어, '愛'라는 글자의 한글 독음은 '애'입니다. 그런데 중국어로는 '아이'라고 읽습니다. 두 음절로 읽히는 글자들까지 한 음절로 읽으려고 하니까 독음에 수렴현상이 일어나게 됩니다.

이런 문제의 맥락에서 한자, 한글 병기를 주장하는 사람들이 있었던 것이겠죠. 모든 일간지에서 한글 전용이 채택된 지가 얼마 안되었구요, 중의성이 절대 허락 안되는 법전에서는 아직도 한자가 병기되고 있습니다. 저는 한자, 한글 병기로 돌아가자는 쪽은 절대 아닙니다. 그 보다는 될 수 있으면, 한자어 대신 순우리말을 쓰자는 쪽입니다. 그러니까,
'출입문개방요망' 이렇게 쓰지 말고, '문을 열어놔 주세요' 이렇게 쓰자는 말입니다. 사용하지 말고 쓰자는 말입니다.