Loading...
2021. 10. 18. 22:08

밑바닥부터 시작하는 딥러닝 - 자연어(2)

벡터 간 유사도 이전 글에서 동시발생 행렬을 활용해 단어를 벡터로 표현하는 방법을 알아봤다. 이번 글에서는 벡터 간 유사도에 대해 알아볼 것이다. 벡터 사이의 유사도를 측정하는 방법은 다양하다. 대표적으로 벡터의 내적이나 유클리드 거리가 있다. 그 외에도 단어 벡터의 유사도를 나타낼 때는 코사인 유사도를 자주 사용한다. 위의 식에서 분자는 벡터의 내적, 분모에는 각 벡터의 노름(norm)이 사용된다. 노름이란 벡터의 크기를 나타낸 것으로, 여기에선 L2 노름을 계산한다. 위의 식의 핵심은 벡터를 정규화하고 내적을 구하는 것이다. def cos_similarity(x, y): nx = x / np.sqrt(np.sum(x**2)) # x의 정규화 ny = y / np.sqrt(np.sum(y**2)) # ..

빅데이터분석기사 필기 - 데이터 전처리(2)

● 데이터 이상값 발생 원인 발생 원인 설명 데이터 입력 오류 - 데이터를 수집하는 과정에서 발생할 수 있는 에러 ex) 100을 입력해야 하는데, 1000을 입력하면 10배의 값으로 입력 측정 오류 - 데이터를 측정하는 과정에서 발생하는 에러 ex) 몸무게를 측정하는데, 9개의 체중계는 정상 작동, 1개는 비정상 작동을 한다고 가정할 때, 한 사용자가 비정상적으로 작동하는 체중계를 이용할 경우 에러 발생 실험 오류 - 실험조건이 동일하지 않은 경우 발생 ex) 100미터 달리기를 하는데, 한 선수가 '출발' 신호를 못 듣고 늦게 출발했다면 그 선수의 기록은 다른 선수들보다 늦을 것이고, 그의 경기 시간은 이상값이 될 수 있음 고의적인 이상값 - 자기 보고식 측정에서 나타나는 에러 - 정확하게 기입한 값..