word2vec, doc2vec 읽기 시작.
GiChang Lee님의 Ratsgo Blog에 정리되어 있는 내용을 기준으로 필요한 material을 읽기 시작.
코딩과 자료구조에 관한 책만 보고 공부하다가 오랜만에 ArXiv article을 보니까 기분이 묘하다. 다시 제대로 공부해야 할 것 같은 기분도 들고.
조금 더 빨리 공부했어야 한다고 생각하지만, 그래도 늦게나마 시작해서 다행이라고 생각한다.
ML에 대해서는 큰 흐름만 공부하고, 각각의 방법론을 구현하거나 테스트하진 않았다.
통계보다 선형대수를 많이 사용하는 SVM이나 embedding을 이용한 방법을 먼저 공부하는 게 좋겠구나 막연히 생각만 했지.
MathPresso에 지원하면서 자연어 처리에 관해 읽을거리를 찾다 보니 word2vec이나 doc2vec에 대해 찾게 되었다.
처음 clustering이나 SVM을 찾을 때의 개념이 data를 분류/라벨링 하는 방법에 관한 것이라는 것을 대략 알았음에도
음성신호나 텍스트를 벡터로 변환하는 과정에 대해선은 완전히 blackbox라서 답답했었다.
vectorization이라는 키워드로 찾아봐도 이렇다할 읽을거리가 없어서 나중으로 미뤄 두었는데 자연어 처리를 찾으니 바로 나와서 당황.
어쨌든 이렇게 좋은 블로그에서 좋은 자료들을 많이 발견하게 되어서 다행이라고 생각한다.
한편으론 공부할 게 갑자기 폭발해서 조금 부담스럽긴 하지만 뭘 해야 할지 몰라서 혼란스러운 것 보다는 할 게 너무 많아서 고민인 게 나으니.
블로그와 ArXiv자료를 읽으면서 시간나는 대로 matrix연산에 필요한 함수들을 library로 만들어보면 어떨까 싶은 생각도 들었다.
library자체는 만들어져 있는 것보다 못하겠지만 하면서 코딩이 손에 더 익으면 좋고.