목걸이처럼 꿰면 문장 만들어진다
자연어·음성 인식기술에 새 돌파구
최근의 스마트폰은 한국어 음성인식 기능을 탑재하고 있다. 정확도도 높아서 간단한 말은 웬만큼 알아듣고 실행한다. “새 메시지 읽어줘” 하거나 “내일 아침 7시 반에 깨워줘” 하고 명령하면 일일이 입력하지 않아도 알아서 작동한다.
![]() |
| ▲ 기존의 복잡한 ‘계층’ 개념을 버리고 단순한 ‘연쇄’ 개념을 채택하면 자연어 처리 기술을 획기적으로 발전시킬 수 있다는 주장이 제기되었다. ⓒScienceTimes |
영어를 이용한 음성인식 기술은 더 높은 수준을 자랑한다. 복잡한 문장도 정확히 알아듣고 명령을 수행한다. 이처럼 인간이 하는 일반적인 문장을 알아듣는 기능을 ‘자연어 처리(Natural Language Processing)’라 한다.
컴퓨터의 자연어 처리 능력은 문장 구조가 얼마나 복잡한지에 따라 달라진다. 난해한 문법으로 이루어진 언어는 그만큼 처리 속도도 늦고 정확도도 떨어진다. 자연어 처리 기술을 위해 컴퓨터공학자와 언어학자와 손을 잡는 이유다.
그러나 최근 미국, 영국, 네덜란드 합동연구진의 발표에 따르면, 언어는 계층(hierarchy)이 아닌 연쇄(sequence) 구조로 파악해도 무리가 없는 것으로 드러났다. 정확한 문법을 몰라도 단어를 나열하는 순서를 이용하면 쉽게 이해할 수 있다는 것이다.
연구는 ‘언어는 정말로 계층적인가(How hierarchical is language use?)’라는 논문으로 정리되어 학술지 ‘영국 왕립학술원 생물학회보(Proceedings of the Royal Society B)’ 최근호에 게재됐다.
계층구조 이용해 문장 분석하는 기존의 언어학 이론
글자가 모이면 단어가 되고 단어는 구문이 되며 구문이 결합해 결국에는 문장을 이룬다. 언어학에서는 문장의 구조를 분석할 때 이처럼 ‘계층’이라는 개념을 이용한다. 예를 들어 ‘문장은 계층적인 구조를 이용해 분석할 수 있다’를 살펴볼 때 ‘문장은 [ { ( 계층적인 구조 ) 를 이용해 } 분석할 수 있다 ]’는 식으로 단계적인 분석이 가능하다.
1957년 언어학자 노암 촘스키(Noam Chomsky)가 ‘통사구조(Syntactic Structures)’라는 책을 통해 ‘변형생성문법’을 처음으로 주장하면서 계층구조는 50년 넘게 지배적인 학설로 자리 잡았다.
컴퓨터의 자연어 처리 능력은 문장 구조가 얼마나 복잡한지에 따라 달라진다. 난해한 문법으로 이루어진 언어는 그만큼 처리 속도도 늦고 정확도도 떨어진다. 자연어 처리 기술을 위해 컴퓨터공학자와 언어학자와 손을 잡는 이유다.
그러나 최근 미국, 영국, 네덜란드 합동연구진의 발표에 따르면, 언어는 계층(hierarchy)이 아닌 연쇄(sequence) 구조로 파악해도 무리가 없는 것으로 드러났다. 정확한 문법을 몰라도 단어를 나열하는 순서를 이용하면 쉽게 이해할 수 있다는 것이다.
연구는 ‘언어는 정말로 계층적인가(How hierarchical is language use?)’라는 논문으로 정리되어 학술지 ‘영국 왕립학술원 생물학회보(Proceedings of the Royal Society B)’ 최근호에 게재됐다.
계층구조 이용해 문장 분석하는 기존의 언어학 이론
글자가 모이면 단어가 되고 단어는 구문이 되며 구문이 결합해 결국에는 문장을 이룬다. 언어학에서는 문장의 구조를 분석할 때 이처럼 ‘계층’이라는 개념을 이용한다. 예를 들어 ‘문장은 계층적인 구조를 이용해 분석할 수 있다’를 살펴볼 때 ‘문장은 [ { ( 계층적인 구조 ) 를 이용해 } 분석할 수 있다 ]’는 식으로 단계적인 분석이 가능하다.
1957년 언어학자 노암 촘스키(Noam Chomsky)가 ‘통사구조(Syntactic Structures)’라는 책을 통해 ‘변형생성문법’을 처음으로 주장하면서 계층구조는 50년 넘게 지배적인 학설로 자리 잡았다.
![]() |
| ▲ 촘스키가 주장한 변형생성문법의 원리. '개가 뼈를 물었다'는 문장(S)은 한정사(D)와 명사(N)가 합쳐진 명사구(NP) 그리고 동사(V)와 명사구가 합쳐진 동사구(VP)로 나눌 수 있다. ⓒWikipedia |
‘개가 뼈를 물었다(The dog ate the bone)’는 문장을 변형생성문법으로 분석하면 여러 종류의 하위구조로 나눌 수 있다. 우선 ‘the’라는 한정사(D)와 ‘dog’라는 명사(N)가 만나 명사구(NP)를 이룬다. ‘ate’라는 동사(V)는 뒷부분의 한정사(the)와 명사(bone)가 합쳐진 또 다른 명사구와 만나 동사구(VP)를 이룬다. 이 명사구와 동사구를 합치면 문장(S)이 된다. 인간이 사용하는 모든 언어는 이러한 방식으로 분석 가능하다는 것이 촘스키의 이론이다.
그런데 최근 미국 코넬대 심리학과, 영국 유니버시티칼리지런던 인지뇌과학과, 네덜란드 암스테르담대 논리언어정보연구소(ILLI)로 이루어진 합동 연구진이 이를 부정하는 연구결과를 발표해 시선을 모으고 있다.
언어는 상위단계와 하위단계로 나누어지는 계층구조가 아니라 단어의 나열 순서에 따른 ‘연쇄구조’로 이루어져 있다는 주장이다. 위 문장을 연쇄 방식으로 분석하면 ‘[ 문장은 ] [ 계층적인 구조를 이용해 ] [ 분석할 수 있다]’가 되는데, 이렇게만 해도 의미를 파악할 수 있다는 것이다.
언어의 분석은 계층구조로 가능할지 몰라도 실제 언어의 사용은 연쇄구조를 이용하는 것만으로도 충분하다는 것이 논문의 내용이다. 논문은 ‘오컴(Occam)의 면도날’ 개념을 인용하며 계층 분석의 비효율성을 지적했다.
14세기 영국의 수도사 오컴은 “필요하지 않은 경우에까지 많은 것을 가정하면 안 된다”와 “보다 적은 수의 논리로 설명이 가능하다면 그보다 많은 수의 논리를 세우지 말라”는 문장을 발표한 바 있다. 단순하게 결론 낼 수 있다면 불필요한 가설은 배제해야 한다는 의미다.
복잡한 구조 대신 단순한 순서에 따라 의미 달라져
분석 원리는 의외로 단순하다. 의미를 담고 있는 작은 단어 무더기를 하나의 ‘구성물(construction)’로 보고 이를 목걸이 꿰듯 줄줄이 연결하는 것이다. 그보다 세밀하게 분석하면 의미가 달라질 수도 있으므로 구성물 단위를 유지한다.
예를 들어 빵(bread)과 버터(butter)라는 두 개의 단어를 합칠 때 연쇄상의 순서에 따라 의미가 달라질 수 있다. ‘bread and butter’는 ‘버터 바른 빵’이라는 새로운 의미를 가지지만 ‘butter and bread’는 그저 버터와 빵을 가리킨다.
계층 분석을 연쇄 분석으로 전환시킬 수도 있다. ‘네 손에 든 나이프와 포크를 내려 놓아라(put your knife and fork down)’는 문장은 ‘put down’, ‘knife and fork’, ‘your’ 등의 계층으로 쪼갤 수 있지만, 연쇄 구조를 이용하면 높낮이를 구분하는 것만으로도 자연스럽게 연결하며 분석할 수 있다.
그런데 최근 미국 코넬대 심리학과, 영국 유니버시티칼리지런던 인지뇌과학과, 네덜란드 암스테르담대 논리언어정보연구소(ILLI)로 이루어진 합동 연구진이 이를 부정하는 연구결과를 발표해 시선을 모으고 있다.
언어는 상위단계와 하위단계로 나누어지는 계층구조가 아니라 단어의 나열 순서에 따른 ‘연쇄구조’로 이루어져 있다는 주장이다. 위 문장을 연쇄 방식으로 분석하면 ‘[ 문장은 ] [ 계층적인 구조를 이용해 ] [ 분석할 수 있다]’가 되는데, 이렇게만 해도 의미를 파악할 수 있다는 것이다.
언어의 분석은 계층구조로 가능할지 몰라도 실제 언어의 사용은 연쇄구조를 이용하는 것만으로도 충분하다는 것이 논문의 내용이다. 논문은 ‘오컴(Occam)의 면도날’ 개념을 인용하며 계층 분석의 비효율성을 지적했다.
14세기 영국의 수도사 오컴은 “필요하지 않은 경우에까지 많은 것을 가정하면 안 된다”와 “보다 적은 수의 논리로 설명이 가능하다면 그보다 많은 수의 논리를 세우지 말라”는 문장을 발표한 바 있다. 단순하게 결론 낼 수 있다면 불필요한 가설은 배제해야 한다는 의미다.
복잡한 구조 대신 단순한 순서에 따라 의미 달라져
분석 원리는 의외로 단순하다. 의미를 담고 있는 작은 단어 무더기를 하나의 ‘구성물(construction)’로 보고 이를 목걸이 꿰듯 줄줄이 연결하는 것이다. 그보다 세밀하게 분석하면 의미가 달라질 수도 있으므로 구성물 단위를 유지한다.
예를 들어 빵(bread)과 버터(butter)라는 두 개의 단어를 합칠 때 연쇄상의 순서에 따라 의미가 달라질 수 있다. ‘bread and butter’는 ‘버터 바른 빵’이라는 새로운 의미를 가지지만 ‘butter and bread’는 그저 버터와 빵을 가리킨다.
계층 분석을 연쇄 분석으로 전환시킬 수도 있다. ‘네 손에 든 나이프와 포크를 내려 놓아라(put your knife and fork down)’는 문장은 ‘put down’, ‘knife and fork’, ‘your’ 등의 계층으로 쪼갤 수 있지만, 연쇄 구조를 이용하면 높낮이를 구분하는 것만으로도 자연스럽게 연결하며 분석할 수 있다.
![]() |
| ▲ 연쇄 개념을 이용하면 ‘네 손에 든 나이프와 포크를 내려 놓아라(put your knife and fork down)’는 문장도 단순하게 구조화 시킬 수 있다. ⓒProceedings of the Royal Society B |
코넬 인지과학 프로그램(CCSP)의 부소장으로 논문 공저에 참여한 모르텐 크리스티안센(Morten Christiansen) 심리학과 교수는 코넬대의 발표자료를 통해 “의미를 지닌 작은 무더기로 단어들을 합치고 그룹화하는 것이 언어 체계 분석에 효과적”이라고 설명했다.
인간이 언어를 사용할 때는 복잡한 계층 개념보다는 단순한 연쇄 개념을 이용한다. 시간이 흘러가는 동안 여러 번의 대화를 나누다보면 의미가 점점 명확해지기 때문이다. 이와 반대로 계층 개념을 주장하는 언어학자들은 “뇌 속에 고도로 특화된 하드웨어가 존재한다”고 주장하지만 아직 발견된 바가 없다.
연구진은 증명을 위해 인지학 기반 뇌신경학, 행동학 기반 심리언어학, 전산언어학 기반 텍스트 빈도분석 등 다양한 최신 학문들을 활용했다. 계층보다 연쇄 개념이 언어 연구에 유용하다는 사실이 이미 각 분야에서 증명되고 있다는 것이다.
이에 앞서 진화생물학에 따른 언어의 습득 과정을 살펴봐도 단순한 연쇄 개념이 설득력을 가진다. 타인의 의도를 추측하는 과정에서 수많은 소리를 배우는 등 여러 영역에서 점차 진화를 거듭한 덕분에 어느 순간 언어와 유사한 수준에 올라서게 되었다는 분석이다.
그러므로 연쇄 개념을 이용하면 영장류나 기타 동물의 의사소통 체계를 연구하는 데도 도움이 된다는 것이 연구진의 주장이다. 크리스티안센 교수는 “단순하고 조악해 보이는 방식으로 사고하는 것이 어쩌면 인류 언어의 기원을 알아낼 수 있는 방법이 될 수도 있다”고 언급했다.
연구진은 인간의 언어를 인식하고 처리하는 컴퓨터공학 분야의 ‘자연어 처리’ 기술에도 큰 발전이 있을 것으로 기대하고 있다. 연쇄 개념을 이용해 알고리듬을 작성하면 번역, 통역, 음성인식 등 자연어 처리에서 큰 성공을 거둘 수 있다는 주장이다.
저작권자 2012.10.16 ⓒ ScienceTimes |




댓글 없음:
댓글 쓰기