문장 분석에 필요한 용어

Lemmatization (원형 복원)

문장 속에서 다양한 형태로 활용되는 단어의 lemma(표제어)를 찾는 것을 말한다.

Lemma1) (표제어)란, 사전에서 단어의 뜻을 찾을 때 쓰는 기본형이다. 예를 들어, ‘가까운’이 Lemmatization을 거치면 ‘가깝다’가 된다. 다음은 영어 단어에 대한 lemmatization의 예시이다.

  • “am”, “are”, “is”의 lemma는 “be”가 된다.
  • “saw”와 see”의 lemma는 “see”가 된다.

Stemming2) (어간 추출)은, 형태론 및 정보 검색 분야에서 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 것을 의미한다. 다음은 영어 단어에 대한 stemming의 예시이다.

  • 문자열 “cats”(“catlike”, “catty” 등도 마찬가지)의 어간으로는 “cat”이 추출된다.
  • “stemmer”, “stemming”, “stemmed”의 어간은 “stem”이다.
  • “fishing”, “fishes”, “fished”, “fisher”는 “fish”가 된다.
  • “argue”, “argued”, “arguing”, “argus”의 어간은 “argu”이다.

Stemming은 단어 그 자체만을 고려하지만 Lemmatization은 그 단어가 문장 속에서 어떤 품사(Part-of-speech)로 쓰였는지까지 판단하는 차이가 있다.

예를들어, ‘flies’에 대해서, Stemming은 ‘y’, ‘ies’에 대한 처리 규칙이 있다면, 단순히 이 단어의 어근 ‘fl’을 내놓는다. (flies에 대해서 명사인지 동사인지 판단하지 않음) 하지만, Lemmatization은 문장 속에서 ‘files’가 동사 ‘날다’ 와 명사 ‘파리’ 중 어떤 뜻으로 쓰였는지까지 결정할 수 있어야 한다.

Stemming은 “cars”와 “automobiles”가 같은 의미인지 보지 않지만, Lemmatization은 문장 구조 분석 같은 언어적인 이해를 고려하여 같은 “car”의 의미임을 알아낸다.

참고

1) Lemma – http://www.4four.us/article/2008/05/lemmatization

2) Stemming – http://ko.wikipedia.org/wiki/%EC%96%B4%EA%B0%84_%EC%B6%94%EC%B6%9C

 

오픈 소스 소프트웨어 저작권

 

무료로 소프트웨어 이용 및 배포 허용 가능

소스 코드 취득 및 수정 가능

2차 저작용 재공개 의무

독점 소프트웨어와 결합 가능
GPL O O O X
LGPL O O O O
MPL O O O O
BSD License O O X O
Apache License O O X O

 

구글라이제이션

아침에 일어나서 구글 앱 (애플리케이션)을 열어서 뉴스와 날씨를 확인하고 구글 캘린더로 일정을 확인한다.

집안 온도나 연기, 가스, 화재를 감시하는 네스트가 집안의 일을 돕고 있고, 네스트가 인수한 드롭캠2)이 집안을 유무선으로 연결된 카메라를 통해 집의 보안을 책임진다.

출근할 때는 구글 무인 자동차를 이용할 수 있다.

구글은 예전부터 압테라라고 하는 전기자동차 회사에 투자했으며, 택시와 수송과 택배까지 지배하기 위해 공유경제의 아이콘처럼 보이는 우버에도 투자했다. 우버에 사용되는 네비게이션은 13억 달러(약 1조4000억원)나 주고 인수한 소셜 기반의 지도서비스기업 웨이즈3)다. 우리나라 ‘김기사’와 같은 방식이다. 사용자의 교통정보를 재가공해 다시 서비스를 하는 방식이다. 가입자가 많아질수록 정확한 교통정보를 제공할 수 있다.

웨이즈와 구글나우가 결합해 도착한 메시지를 소리로 들려주고. 음성으로 답변하며 음성검색으로 대화하는 자연언어 인식기술을 사용해 더욱 편리하게 서비스한다. 자신만의 서비스, 자신의 개인 비서인 것이다.

회사에 출근하면 크롬이 탑재된 PC를 켜고 G메일로 이메일을 확인한다.

PC와 스마트폰 캘린더가 싱크 되며, 일정관리 서비스 타임풀은 오늘의 회의와 약속, 업무를 친절하게 알려준다.

구글 독스를 사용해 문서와 인터넷 설문을 작성하고, 구글의 스프레드시트를 통해 결과를 분석한다.

개인에게 최소 15GB(기가바이트)를 무료로 제공하는 구글 클라우드에 결과를 저장할 수도 있다.

고객의 방문 요청에는 당연하게 구글 맵스를 펼쳐 놓고, 더불어 실감나는 스트리트뷰와 구글 어스, 한 걸음 더 나아가 3D 서비스를 통해 입체적으로 보여줄 것을 기대하며 위치검색을 하게 된다.

이렇게 세상이 모두 구글이 만들어 놓은 세상에서 놀고 있음에도 구글은 멈추지 않고 있다.

70조원의 현금을 보유하고 있으며 180여개의 기업을 인수했다.

구글의 비즈니스 명분은 인간의 관점을 완전히 바꿔 인간이 해결해야 할 문제, ‘X’를 해결해야 한다는 것으로, 아직도 인터넷의 혜택을 받지 못하는 인류의 3분의 2를 위해서 풍선을 띄우고, 드론을 날릴 것이라 한다. 한해 100만 명이 넘는 교통사고 사망자를 줄이기 위해 무인자동차를 보급할 것이라고 한다. 인간의 노화를 방지하기 위한 프로젝트로 영원히 살 기회까지 넘보고 있는 구글이다.

구글의 ‘문샷 싱킹’(moonshot thinking) 프로젝트는 인류의 가장 어려운 면을 해결하고자 하는 획기적인 해결방안을 위한 것이다.