text data를 vectorize하기 전에 tokenize나 POS tagging을 통해 전처리(preprocess)를 해야 하는데 이때, 어떤 전처리를 하는가도 매우 중요한 것 같다.
문제의 data를 저장하는 경우에, 숫자나 수식을 인식하는 것 보다 문제가 어떤 방식으로 만들어졌느냐가 중요할 것이기 때문에
같은 단어라도 어떤 맥락 중에 사용되었느냐와, 조건에서 사용된 단어와 (최종)질문에서 사용된 단어를 구분하여 인식해야 하므로
한 문장이 조건에 사용되는 문장인지 질문에 사용되는 문장인지를 전처리에서 가려내는 것이 중요할 것이다.
학습 데이터셋의 포스태깅 후 정보들의 라벨 특성과 테스트셋의 포스태깅 라벨 특성이 얼마나 일치하는지를 보면
최종적으로 문제만으로 풀이를 만들어내는 과정을 완성할 수도 있지 않을까.
한 문장 내에서 수식으로 이루어진 부분은 숫자만 조금 달리하면 항상 다르게 나타나므로 수식이 포함된 부분과 그 주변 단어들을 분리해 인지하고
각각으이 조건을 계산하는 방법들을 학습 data set으로 학습하여 라벨링하면..
사실 수학문제라는 게 유형학습이 있을 정도로 생각보다 전형적인 문제가 많이 있기 때문에 가능할 지도 모르겠다는 생각이 든다.
'언어 공부 > ML(NLP)' 카테고리의 다른 글
알게 된 조각조각의 나열. (word2vec, embedding, linear algebra) (1) | 2018.06.12 |
---|---|
word2vec, doc2vec 읽기 시작. (0) | 2018.06.07 |