[한자 문맹(漢字文盲) 벗어나자] [18] 웹사이트 속 한글, 漢字로 바꿔준다

    입력 : 2014.09.01 03:04

    [한글 한자 자동변환 프로그램 첫 공개]

    한글 문맥 분석해 한자로 변환해 표기
    고유명사 인식 못하는 등 아직은 한계

    지난 28일 조선닷컴(www.chosun.com) 메인화면(위)을‘한글 한자 자동변환 웹 서비스’를 통해 한자가 노출되도록 변환한 화면(아래).
    지난 28일 조선닷컴(www.chosun.com) 메인화면(위)을‘한글 한자 자동변환 웹 서비스’를 통해 한자가 노출되도록 변환한 화면(아래). /한국전통문화연구회 홈페이지

    지난 28일자 조선닷컴(www.chosun.com) 메인 화면을 '한글 한자 자동변환 웹 서비스'를 통해 변환해 봤다. '여야 합의안, 다수 의원들이 합의한 것으로 믿어 수용'이란 톱기사의 제목이 금세 '與野 合意案, 多數 議員들이 合意한 것으로 믿어 受容'으로 바뀌었다. 한자 13자(字)가 모두 정확했다. 메인 화면의 다른 뉴스 제목에서 '朴 大統領(박 대통령)' '記者會見(기자회견)' '斷食(단식)' '進展(진전)' '專門家(전문가)' 등의 용어도 대부분 맞게 변환돼 나왔다.

    울산대 IT융합전공 옥철영 교수팀이 개발한 이 '한글 한자 자동변환 프로그램(UTagger)'이 오는 2일 처음으로 공개된다. 사단법인 어문정책정상화추진회가 오후 2시 한국프레스센터에서 개최하는 창립총회(02-762-8401)에서다.

    문맥 분석해 한글을 한자로 변환

    이 서비스의 개념은 한글로 쓰인 웹사이트의 내용을 ▲곧바로 한자로 변환하거나 ▲한자를 괄호 속에 병기(倂記)해 보여주고 ▲개별 한글 텍스트를 한자로 변환할 수도 있게 하는 것이다. 중국어 간체자나 일본 약자로도 바꿀 수 있고, 1급에서 9급에 이르는 수준별 한자를 선택해서 변환할 수도 있다. 이 서비스는 옥 교수팀과 공동 연구를 수행한 사단법인 전통문화연구회 홈페이지(hanjaro.juntong.or.kr)를 통해 일반인도 이용할 수 있다.

    옥 교수는 미리 주최 측에 제출한 발표문에서 "'표준국어대사전'에 등재된 표제어 중 28만8600 어휘가 한자를 지니고 있으며, 그중 8만4000개가 동형이의어(同形異義語·한글로 썼을 때 글자는 같으나 뜻이 다른 말)"라는 문제 제기를 했다. 우리말 문장을 한자 없이 한글로만 표기할 경우 뜻을 제대로 알 수 없는 경우가 많다는 것이다.

    옥 교수와 울산대 IT융합전공 한국어처리연구실은 '한국어 문장의 문맥을 보고 맞는 한자를 찾아주는 기술'을 개발했다. 이를 위해선 정확한 형태소(形態素·뜻을 가진 가장 작은 말의 단위) 분석과 문맥에 맞는 동형이의어 분별 능력이 필요했다. ①두 가지 이상의 형태소로 분석된 어절(語節·띄어쓰기의 단위)과 ②문맥에 맞는 동형이의어로 분별된 말뭉치를 준비한 뒤, ③인접 어절의 문맥 정보를 이용해 분석 규칙을 학습하고 이를 활용하도록 했다.

    아직은 고유명사 등에서 한계

    이 프로그램은 앞으로 ▲문장의 정확한 의미 파악 ▲한자 교육과 학습 ▲문서 작성의 한자 입력 방식 개선 ▲한자문화권 외국인의 한국어 사이트 내용 이해 등에 획기적인 전환점이 될 것으로 기대된다. 이계황 전통문화연구회장은 "과거 한자 표기에 반대하는 사람들이 '한자는 타자를 칠 수 없다' '입력하는 데 시간이 걸린다'고 했지만 이제 기술적으로는 거의 해결되지 않았느냐"고 말했다.

    하지만 이 프로그램은 한계도 드러냈다. 지난 28일자 조선닷컴 메인 화면 고유명사의 경우 역사 인물인 '유관순'은 '柳寬順'으로 맞게 바뀌었으나, 생존 인물인 '문재인'은 그냥 한글로 남았다. '감사(感謝)'를 '監査'로, '한국사 교과서 8종 중 4종서 3·1운동 서술'이란 제목에서 '4종(種)서'를 '4종서(縱書)'로 잘못 바꾸는 등 일부 오류도 있었다. 향후 추가 개발이 필요한 부분이다.

    이전 기사 다음 기사
    기사 목록 맨 위로