# 문서 단어 행렬(Document-Term Matrix, DTM)
- 서로 다른 문서들의 BoW들을 결합한 표현 방법 => 서로 다른 문서들을 비교할 수 있게 됨
- 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현
- 각 문서에 대한 BoW를 하나의 행렬로 만든 것
- 행과 열을 반대로 선택하면 TDM이라고도 함
- 문서 단어 행렬의 한계
- 희소 표현
- DTM에서 각 문서 벡터의 차원은 전체 단어 집합의 크기를 가짐
- 만약 가지고 있는 전체 코퍼스가 방대한 데이터라면 문서 벡터의 차원은 수만 이상의 차원을 가질 수 있음
- 많은 문서 벡터가 대부분의 값을 0으로 가질 수도 있음
- 대부분의 값이 0인 표현 = 희소 벡터(sparse vector), 희소 행렬(sparse matrix)
- 많은 양의 저장 공간과 높은 계산 복잡도 요구
- 단순 빈도 수 기반 접근
- 각 문서에는 중요한 단어와 불필요한 단어들이 혼재되어 있음=> 불용어와 중요한 단어에 대해 가중치 주는 방법 찾아야함 => TF-IDF
- 희소 표현
# 참고글
04-03 문서 단어 행렬(Document-Term Matrix, DTM)
서로 다른 문서들의 BoW들을 결합한 표현 방법인 문서 단어 행렬(Document-Term Matrix, DTM) 표현 방법을 배워보겠습니다. 이하 DTM이라고 명명합니다. 행과…
wikidocs.net
'딥러닝' 카테고리의 다른 글
[개념] 한국어 전처리 패키지(Text Preprocessing Tools for Korean Text) (0) | 2023.01.25 |
---|---|
[개념] 어간 추출(Stemming) 및 표제어 추출(Lemmatization) (0) | 2023.01.22 |
[개념] 토큰화(Tokenization) (0) | 2023.01.20 |
[개념] Bag of Words (0) | 2023.01.19 |
[개념] TF-IDF (0) | 2023.01.18 |