사이킷런

· 딥러닝
# Bag of Words(BoW) 단어들의 순서는 전혀 고려하지 않고 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법 각 단어가 등장한 횟수를 수치화하는 텍스트 표현 방법 어떤 단어가 얼마나 등장했는지를 기준으로 문서가 어떤 성격의 문서인지를 판단하는 작업에 쓰임 ex) '달리기', '체력'과 같은 단어가 자주 등장하면 해당 문서를 체육 관련 문서로 분류 가능 => 분류 문제나 여러 문서 간의 유사도를 구하는 문제에 주로 사용 국소 표현 방법(Local Representation = 이산 표현, Discrete Representation) 해당 단어 그 자체만을 보고 특정값을 매핑하여 단어를 표현하는 방법 단어의 의미, 뉘앙스 표현 불가능 분산 표현 방법(Distr..
· 딥러닝
# TF-IDF(Term Frequency-Inverse Document Frequency) 정보 검색과 텍스트 마이닝에서 이용하는 가중치 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치 문서의 핵심어 추출, 검색 엔진에서 검색 결과의 순위 결정, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용 가능 TF(Term Frequency) 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값 값이 높을수록 문서에서 중요하다고 생각할 수 있음 But! 단어 자체가 문서군 내에서 자주 사용되는 경우, 그 단어가 흔하게 등장한다는 것을 의미 = DF(문서 빈도, document frequency) = 특정 단어 t가 등장한 문서의 수 ..
하얀 돌덩이
'사이킷런' 태그의 글 목록