가정: 서로 다른 변수에 기반한 문장은 서로 유사/하지만 변수의 변화에 따라 변화하는 경향이 다른 변수에 대한 것보다 큼.
-
paragraph2vec로 문단을 dense vector로 변환. cosine distance를 통해 클러스터링. 같은 클러스터 내에서 변수를 조건으로 걸었을 때 가장 큰 분산을 보이는 변수를 문단과 상응하는 변수로 가정. 이 경우 선택할 상위 변수의 개수 N을 지정해야 함. 다만 모든 클러스터에 대해서 같은 개수 N을 설정한다는 것이 plausible한지는 문제가 될 수 있음.
-
LDA 등 토픽 모델. 문단을 하나의 document로? 다만 사람이 손으로 변수와 연관지어줘야 함.
-
RBM, Deep belief network. 막연하지만 토픽 모델과 비슷한 느낌으로.
-
RNN에 hidden input으로 변수를 집어넣는 방법. 변수를 인코딩하는 레이어를 추가하고, 거기에 hard softmax 같은 함수로 스위칭하는 게이트를 만들어서 변수를 선택하는 방법을 배우게 함. 예를 들어 온점을 만나 문장이 바뀌고, 새로운 특정한 단어를 보았을 때 state를 전환해 다른 변수에 RNN의 상태가 의존하게 하고, 거기서부터 새로운 문장 생성 규칙(언어 모형)을 사용하는 것을 학습하게 하는 방법.