Problems with resources like WordNet

https://velog.velcdn.com/images/s0o0_jiiin/post/01201914-f6bb-4f76-a540-d14eff73a363/image.png

세부적인 차이 존재

proficient는 good의 유의어에 속해 있지만, 특정 문장에서만 맞음.

신조어가 적용되어있지않음. 항상 최신 상태를 유지하는 것은 불가능. 단어와 단어 간의 유사도를 계산할 수 없음.

Representing words as discrete symbols

전통적인 자연어 처리(NLP)에서는 단어를 개별적인 기호(discrete symbols)로 간주.

호텔, 컨퍼런스, 모텔 – 로컬리스트(localist) 표현

localist representation = 단어나 개념을 개별적이고 독립된 기호로 표현하는 방식

image.png

웹 검색에서 사용자가 "Seattle motel"을 검색할 때, 우리는 "Seattle hotel"을 포함하는 문서도 매칭되기를 원한다.

하지만,

두 벡터는 orthogonal(직교)한다.

= 서로 수직으로, 내적(dot product)이 0이 되는 관계에 있다. 표현하는 단어들 사이에 내재적인 관계나 유사성을 반영하지 못한다는 것을 의미한다.

이러한 이유로 one-hot vector 간에는 자연스러운 유사성의 개념(natural notion of similarity)이 없다.

Representing words by their context