분류 전체보기

· 딥러닝
# 어간 추출(Stemming)과 표제어 추출(Lemmatization) 눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이기 위한 작업들 BoW 표현을 사용하는 자연어 처리 문제에서 주로 사용 # 표제어 추출(Lemmatization) 표제어(Lemma) = 기본 사전형 단어 포제어 추출 = 단어들이 다른 형태를 가지더라도 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단 표제어 추출을 하는 가장 섬세한 방법 = 형태학적 파싱을 먼저 진행하는 것 형태학(morphology) = 형태소로부터 단어들을 만들어가는 학문 형태소의 종류로는 어간(stem)과 접사(affix)가 존재 어간(stem) = 단어의 의미를 담고..
· 딥러닝
# 텍스트 전처리(Text preprocessing) 용도에 맞게 텍스트를 사전에 처리하는 작업 # 토큰화(Tokenization) 주어진 corpus에서 토큰(token) 단위로 나누는 작업 토큰의 단위는 상황에 따라 다르지만 보통 의미 있는 단위로 토큰을 정의함 토큰화 작업 전, 후에 텍스트 데이터를 용도에 맞게 정제 및 정규화하는 일을 함 # 정제(Cleaning) 갖고 있는 코퍼스로부터 노이즈 데이터를 제거 # 정규화(Normalization) 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어줌 # 단어 토큰화(Word Tokenization) 이때의 단어는 단어 단위 외에도 단어구, 의미를 갖는 문자열로 간주되기도 함 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우가 발..
· 딥러닝
# 문서 단어 행렬(Document-Term Matrix, DTM) 서로 다른 문서들의 BoW들을 결합한 표현 방법 => 서로 다른 문서들을 비교할 수 있게 됨 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현 각 문서에 대한 BoW를 하나의 행렬로 만든 것 행과 열을 반대로 선택하면 TDM이라고도 함 문서 단어 행렬의 한계 희소 표현 DTM에서 각 문서 벡터의 차원은 전체 단어 집합의 크기를 가짐 만약 가지고 있는 전체 코퍼스가 방대한 데이터라면 문서 벡터의 차원은 수만 이상의 차원을 가질 수 있음 많은 문서 벡터가 대부분의 값을 0으로 가질 수도 있음 대부분의 값이 0인 표현 = 희소 벡터(sparse vector), 희소 행렬(sparse matrix) 많은 양의 저장 공간과 높은 계산 복잡..
· 딥러닝
# Bag of Words(BoW) 단어들의 순서는 전혀 고려하지 않고 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법 각 단어가 등장한 횟수를 수치화하는 텍스트 표현 방법 어떤 단어가 얼마나 등장했는지를 기준으로 문서가 어떤 성격의 문서인지를 판단하는 작업에 쓰임 ex) '달리기', '체력'과 같은 단어가 자주 등장하면 해당 문서를 체육 관련 문서로 분류 가능 => 분류 문제나 여러 문서 간의 유사도를 구하는 문제에 주로 사용 국소 표현 방법(Local Representation = 이산 표현, Discrete Representation) 해당 단어 그 자체만을 보고 특정값을 매핑하여 단어를 표현하는 방법 단어의 의미, 뉘앙스 표현 불가능 분산 표현 방법(Distr..
· 딥러닝
# TF-IDF(Term Frequency-Inverse Document Frequency) 정보 검색과 텍스트 마이닝에서 이용하는 가중치 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치 문서의 핵심어 추출, 검색 엔진에서 검색 결과의 순위 결정, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용 가능 TF(Term Frequency) 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값 값이 높을수록 문서에서 중요하다고 생각할 수 있음 But! 단어 자체가 문서군 내에서 자주 사용되는 경우, 그 단어가 흔하게 등장한다는 것을 의미 = DF(문서 빈도, document frequency) = 특정 단어 t가 등장한 문서의 수 ..
하얀 돌덩이
'분류 전체보기' 카테고리의 글 목록 (7 Page)