Tekhartha의 인공지능 기술블로그

NLP(Natural Language Processing, 자연어 처리) & Corpus(코퍼스)

|


 [자연어 처리] 

  • 자연어 처리(Natural Language Processing, NLP)란 인간의 자연어를 처리하기 위한 계산 기술 또는 계산 언어학에 대한 능력이다.
  • 자연어 처리란 컴퓨터와 인간 언어 간의 상호작용과 관련된 전산과학, 인공지능, 컴퓨터 언어학의 한 분야다.
  • 자연어 처리란 인간 자연어의 자동(또는 반자동) 처리로 정의할 수 있다.

[코퍼스(Corpus)]

코퍼스는 컴퓨터에 저장된 자연어 자료 모음이며 언어가 어떻게 사용됐는지 알아내는 데에 사용한다.

더 정확히 정의하면, 코퍼스는 언어 분석에 사용되는 실제 언어의 체계적 디지털 모음이다.

둘 이상의 코퍼스가 있으면 코포라(Corpora) 라고 부른다.

※ nltk(파이썬의 자연어 처리 패키지)의 4가지 코포라 타입

  • Isolate Corpus(아이솔레이트 코퍼스) : 텍스트 또는 자연어 모음
  • Categorized Corpus(카테고리화 코퍼스) : 다양한 타입의 부류로 그룹화된 텍스트 모음. ex) brown 코퍼스
  • Overlapping Corpus(오버래핑 코퍼스) : 그룹화된 코퍼스지만 카테고리가 겹침
  • Temporal Corpus(템포럴 코퍼스) : 일정 기간 동안 자연어를 사용하는 모음. ex) inaugural address 코퍼스

Comments