UPDATED. 2020-10-23 17:26 (금)
2020.10.24(토)
  • 서울
  • B
  • 경기
  • B
  • 인천
  • B
  • 광주
  • B
  • 대전
  • B
  • 대구
  • B
  • 울산
  • B
  • 부산
  • B
  • 강원
  • B
  • 충북
  • B
  • 충남
  • B
  • 전북
  • B
  • 전남
  • B
  • 경북
  • B
  • 경남
  • B
  • 제주
  • B
  • 세종
  • B
차근차근 기계학습 힘 키워온 구글…통계적 자연어처리 발판, 시총 600조원 초일류기업으로
차근차근 기계학습 힘 키워온 구글…통계적 자연어처리 발판, 시총 600조원 초일류기업으로
  • 이희길 기자
  • 승인 2020.10.16 16:07
  • 댓글 0
이 기사를 공유합니다

자연어 처리 [뉴스1]
자연어 처리 [뉴스1]

제2차 AI 붐에서는 ‘지식’을 많이 받아들일수록 그만큼 행동할 수는 있었지만 기본적으로 입력한 지식 이상의 것은 할 수 없었다.

그리고 입력하는 지식이 보다 실용적이어야 하고, 예외에도 대응할 수 있도록 만들려고 하면 방대해져서 언제까지나 입력시킬 수는 없었다. 근본적으로는 기호와 그것이 가리키는 의미가 결부되지 않았고, 컴퓨터가 의미를 취급하는 것은 상당히 어려웠다.

이러한 폐쇄감 속에 차근차근 힘을 키워온 것이 ‘기계학습’이라는 기술이며, 그 배경에는 문자 식별 등의 패턴 인식 분야에서 오랜 세월 축적돼 온 기반 기술과 증가하는 데이터의 존재가 있었다.

웹에 처음으로 페이지가 생긴 것이 1990년, 초기에 유면한 브라우저 ‘모자이크’를 할 수 있었던 것이 1993년이었다.

구글의 검색 엔진을 사용할 수 있었던 것이 1998년이고, 고객의 구매 데이터나 의료 데이터 등의 데이터 마이닝 연구가 왕성하고 국제적인 학회를 열었던 것이 같은 해인 1998년의 일이다.

특히 인터넷상에 있는 웹페이지의 존재는 강렬해서 웹페이지의 텍스트를 다루는 것이 가능한 자연어처리와 기계학습의 연구가 크게 발전했다.

그 결과 통계적 자연어처리라고 불리는 영역이 빠른 속도로 발전했다. 이것은 예를 들어 번역을 생각할 때에 문법 구조나 의미 구조를 생각하지 않고, 단지 기계적으로 번역되는 확률이 높은 것을 적용시켜 나가면 된다는 사고방식이다.

즉 기존의 언어학에서 연구돼 온 문법에 관한 지식이나 문장이 전하려는 의미를 정확히 파악해서 번역하는 것이 아니고 대역 코퍼스라는 두 가지의 언어가 양쪽으로 기재된 대량의 텍스트 데이터를 학습해 단순하게 적용시켜 가는 것이다.

이렇게 해서 종래의 추론이나 지식 표현과 다소 다른 분야에서 기존의 데이터를 확률적 또는 통계적으로 분석해 그것을 활용하는 연구로서 기계학습의 연구가 진행되고 있었다.

구글은 그야말로 이 통계적 자연어 처리의 화신 같은 기업이며, 창업으로부터 10년이 지나자 급성장을 이뤘다.

구글이 10만 달러의 자금으로 창업한 것이 1998년인데 2004년에 상장했을 당시의 시가 총액은 230억 달러였다. 그 후 10년이 지난 2014년에는 3,500억 달러가 돼 시가 총액으로 토요타 자동차의 2,000억 달러를 크게 상회했고, 2020년에는 구글 5,390억달러(618조원), 도요타 2,050억달러(246조원)로 격차가 확대됐다. 

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.