PC에서 모든 일본어 한자 사용 가능! 6만자 코드화 완료

15년에 걸친 일본어 한자의 국제 코드화 작업! 앞으로 모든 한자 사용 가능해져

일본어의 한자는 호적에 사용되고 있는 것을 포함하면 6만자가 있지만 컴퓨터에서는 1만자 밖에 사용할 수 ​​없었다. 하지만 최근 15년이 넘는 작업 끝에 6만자 모두 코드화 작업을 완료하여 PC에서 모든 한자를 사용할 수 있게 되었다. 정확한 빅데이터 활용을 비롯한 다양한 효과가 기대되고 있다.

컴퓨터에서 문자를 취급하기 위해서는 하나 하나의 문자에 세계 공통의 코드를 할당해야 하지만 일본어의 한자 코드는 1만자에 그쳐 컴퓨터가 처리할 수 없는 외자(外字)가 약 5만자에 달했다.

그 중에는 업체가 독자적으로 개발한 소프트를 이용하여 사용 가능한 한자도 있지만 공통의 코드가 없기 때문에 제조사끼리 호환성이 없어 다른 컴퓨터에서는 인식을 못하고 글자가 깨지는 문제가 발생했다.

이 때문에 정보처리추진기구(IPA: Information-technology Promotion Agency)는 2002년부터 15년 넘게 경제산업성과 함께 PC에서 사용 못하는 외자(外字)를 포함한 약 60,000개의 한자 하나 하나에 코드를 할당하는 작업을 진행하여 최근에 국제 규격으로 등록 완료했다.

일본어의 장벽 하나가 사라진 것이다. 이제는 비규격 한자를 정확하게 표시할 수 있고, 지명을 포함한 빅데이터도 정확한 분석이 가능하게 되었다.

지금까지의 한자와 컴퓨터

호적에 사용되는 한자 중 예를 들어 와타나베(渡辺)의 베는 辺, 邊, 邉 등 11가지가 있지만 컴퓨터에서 사용 가능한 한자는 3글자뿐이며, 사이토(斉藤,斎藤)의 사이는 斉, 斎, 齊, 齋 등 약 60종류가 있지만 컴퓨터가 취급하는 글자는 15자 정도이다.

일본에서 처음으로 한자 코드가 만들어진 것은 1978년으로, 당시는 컴퓨터의 사양이 낮고 대량의 데이터를 취급 할 수 없어 약 6000개의 한자만 등록했다.

그 후 1979년에 세계 최초의 일본어 워드 프로세서가 출시되고 가정과 기업에 PC가 보급되면서 다양한 한자를 취급할 필요성이 대두되었지만 코드의 규격화가 진행되지 않고 코드가 없는 한자는 각 제조사가 별도로 만들어 사용했다.

현재는 약 1만 개의 한자에 코드가 부여되어 있지만 아직까지 특정 프로그램을 사용하지 않으면 볼 수 없는 한자도 있어 대응이 시급했다.

기업과 지자체도 어려움을 겪어

비규격 한자는 기업뿐만 아니라 지자체에서도 문제였다.

도쿄 오모테산도의 청첩장과 석차표를 인쇄하는 업체에서는 이름에 비규격 한자가 있는 경우는 종이에 적어 달라고 하여 인식 가능한 프로그램이 있는지 일일이 조사했다.
지원하지 않는 한자는 그림 작성 소프트웨어를 사용하여 수동으로 작성하는데 지금까지 약 240자를 이런 방법으로 대응해 왔다고 한다.

그리고 관공서에서는 주민대장에 있는 이름과 주소를 전자문서화 할 때 규격외 한자는 검은점으로 표시되어 수동으로 데이터를 수정했다.

도쿄 신주쿠에있는 IT기업은 후생노동성이 발표하는 전국 80만 곳 이상의 의료기관 및 약국, 노인돌봄 사업소 정보를 데이터베이스화하여 제약회사에 판매하거나 검색 서비스를 제공하고 있다.

그런데 시설의 이름과 위치에 비규격 한자가 포함되어 있으면 글자가 깨지는 것은 물론 데이터베이스에 다른 시설로 등록되어 버린다.

이 때문에 직원이 1주일 동안 모든 정보를 일일이 확인하여 수동으로 수정하고 있어 추가적인 인건비 지출과 자료 업데이트 일정에도 영향을 준다는 것이다.

이러한 수정 작업은 빅데이터 분석 및 인공지능의 개발에서도 일본의 장애물이 되고 있다.

이 IT기업의 이사는 “데이터 분석은 하나라도 잘못된 정보가 있으면 전혀 도움이 되지 않는다. 데이터베이스가 정확하지 않으면 일본의 경쟁력 저하로 이어질 수 있다. 이번 코드화로 모든 한자가 사용 가능해지면 좀더 비즈니스 하기가 용이해진다”고 말했다.