DTM

· 딥러닝
# 문서 단어 행렬(Document-Term Matrix, DTM) 서로 다른 문서들의 BoW들을 결합한 표현 방법 => 서로 다른 문서들을 비교할 수 있게 됨 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현 각 문서에 대한 BoW를 하나의 행렬로 만든 것 행과 열을 반대로 선택하면 TDM이라고도 함 문서 단어 행렬의 한계 희소 표현 DTM에서 각 문서 벡터의 차원은 전체 단어 집합의 크기를 가짐 만약 가지고 있는 전체 코퍼스가 방대한 데이터라면 문서 벡터의 차원은 수만 이상의 차원을 가질 수 있음 많은 문서 벡터가 대부분의 값을 0으로 가질 수도 있음 대부분의 값이 0인 표현 = 희소 벡터(sparse vector), 희소 행렬(sparse matrix) 많은 양의 저장 공간과 높은 계산 복잡..
하얀 돌덩이
'DTM' 태그의 글 목록