Skip to content

Latest commit

 

History

History
90 lines (42 loc) · 3.95 KB

2019-08-12_bayesian.md

File metadata and controls

90 lines (42 loc) · 3.95 KB

네이버 영화 평점 데이터

0과 1은 긍정 평가와 부정 평가임

  1. 베이지안 필터기 -> 부/긍정 평가
  2. IMDB 좋음

P(스팸|나이트, 형님, 강호동, ...)

P(햄|나이트)

P(B|A) => 여러 개 카테고리, 입력텍스트는 동일

=> P(A|B)*P(B) (P(A)가 생략되는 이유는 공통적으로 나누어지기 때문에 계산량을 줄이기 위함)

P(B): 각 카테고리로 분류될 확률

P(A|B): A는 단어들의 집합(aN)

P(A|B): P(a1|B)P(a2|B)...P(aN|B)

정리하면, P(A|B)*P(B)를 카테고리별로 계산하면 됩니다.

자연어 처리 용어 정리

언어 단위

: 언어 구조의 기본적인 단위.

일정한 형(型) 또는 구조를 이루는 연쇄체를 관찰할 때 서로 비슷한 성질을 가진 요소들을 비교 · 관찰하여 설정된다. 문장 · 절 · 구 · 단어 · 형태소와 같이 일정한 길이와 문법적 형을 가지는 문법적 단위 및 음조(音調) · 음각(foot) · 음절 · 음운과 같은 음운적 단위 등이 있다.

흔히 요소라는 말과 비슷하게 사용하나, 이들을 서로 구분할 때 단위는 연쇄체 혹은 구조를 전제로 하며, 요소는 체계 속에서 인식되는 것이다.

형태소(morpheme)

: 최소의 의미를 가진 작은 단위.

어소 또는 형태부라고도 한다. 주시경(周時經)은 형태소를 ‘늣씨’라고 하였다. 형태소가 국어문법의 단위로서 논의되기 시작한 것은 1950년대말 구조 문법이 수용되면서부터이다.

그 뒤 주시경의 늣씨가 형태소와 비슷한 개념으로 사용되었다는 점이 지적되고, 형태소분별을 위한 기준 문제가 논의되면서 형태소의 정립이 문법연구의 우선적 과제라는 점을 인식하였다.

단어(word)

: 문법상의 일정한 뜻을 가지는 말의 최소 단위. 문법 단위 중 기본이 되는 언어 단위의 하나.

그 정의는 쉽지 않으며, 아직도 일정하게 내려지지 못하고 있다. ‘단일한 의미를 가지는 음 결합체’라 하여 의미를 기준으로 삼은 단위를 단어라고 하는 정의도 있으나 ‘소나무 · 편지통 · 눈사람’과 같은 말을 ‘나무 · 사람’과 같은 단순한 개념의 단위라 하여 하나의 단어로 처리하는 데에는 무리가 따른다.

*뜻을 가진 가장 작은 말의 단위는 ‘형태소’ *뜻을 지니고 홀로 쓰일 수 있는 말의 단위는 ‘단어’

쉽게 설명해서 형태소와 단어의 관계는, 모두 뜻을 지니고 있는 문법 단위라는 점에서 같지만, 형태소는 ‘가장 작은 말의 단위’이고 단어는 ‘홀로 쓰일 수 있다’라는 측면에서 차이가 같다.

어휘(vocabulary)

: 특정한 언어체계가 가지는 어휘소(語彙素) 또는 어휘항목을 통칭하여 이른다.

단어를 어휘라고 일컫는 일이 있으나 단어는 어휘를 구성하는 자료일 뿐이다. 여러 종류의 특정한 언어체계가 가지고 있는 어휘소의 총체가 그 언어체계의 어휘라고 할 수 있다. 여기서 어휘소라고 하는 것은 직접으로 의미와 대응되는 기본적인 단위이며, 구체적으로 보통 말하는 단어가 중심이 되고 단어보다 하위단어인 형태소가 포함된다.

또, 단어보다 상위단위인 구(句)도 그것이 전체로서 하나의 사물과 대응되어 있거나 한 사물의 존재 · 상태 · 움직임 등을 대표한다면 문(文)의 기본단위가 된다는 점에서 역시 어휘소라고 할 수 있다. 어휘소란 한 언어체계에서 어휘를 형성하는 자료가 된다.

어절

: 한 단어 및 그 이상의 이어진 단어들에 의하여 이루어진 문장 구성의 한 단위.

구(句, phrase)보다는 작고, 단어보다는 큰 문법단위. 쉽게 말해서 어절은 띄어쓰기의 단위가 되는 말의 덩어리라고 생각하면 되겠다.

출처 : 국어국문학자료사전