12주차
$$\gdef \sam #1 {\mathrm{softargmax}(#1)}$$
$$\gdef \vect #1 {\boldsymbol{#1}} $$
$$\gdef \matr #1 {\boldsymbol{#1}} $$
$$\gdef \E {\mathbb{E}} $$
$$\gdef \V {\mathbb{V}} $$
$$\gdef \R {\mathbb{R}} $$
$$\gdef \N {\mathbb{N}} $$
$$\gdef \relu #1 {\texttt{ReLU}(#1)} $$
$$\gdef \D {\,\mathrm{d}} $$
$$\gdef \deriv #1 #2 {\frac{\D #1}{\D #2}}$$
$$\gdef \pd #1 #2 {\frac{\partial #1}{\partial #2}}$$
$$\gdef \set #1 {\left\lbrace #1 \right\rbrace} $$
% My colours
$$\gdef \aqua #1 {\textcolor{8dd3c7}{#1}} $$
$$\gdef \yellow #1 {\textcolor{ffffb3}{#1}} $$
$$\gdef \lavender #1 {\textcolor{bebada}{#1}} $$
$$\gdef \red #1 {\textcolor{fb8072}{#1}} $$
$$\gdef \blue #1 {\textcolor{80b1d3}{#1}} $$
$$\gdef \orange #1 {\textcolor{fdb462}{#1}} $$
$$\gdef \green #1 {\textcolor{b3de69}{#1}} $$
$$\gdef \pink #1 {\textcolor{fccde5}{#1}} $$
$$\gdef \vgrey #1 {\textcolor{d9d9d9}{#1}} $$
$$\gdef \violet #1 {\textcolor{bc80bd}{#1}} $$
$$\gdef \unka #1 {\textcolor{ccebc5}{#1}} $$
$$\gdef \unkb #1 {\textcolor{ffed6f}{#1}} $$
% Vectors
$$\gdef \vx {\pink{\vect{x }}} $$
$$\gdef \vy {\blue{\vect{y }}} $$
$$\gdef \vb {\vect{b}} $$
$$\gdef \vz {\orange{\vect{z }}} $$
$$\gdef \vtheta {\vect{\theta }} $$
$$\gdef \vh {\green{\vect{h }}} $$
$$\gdef \vq {\aqua{\vect{q }}} $$
$$\gdef \vk {\yellow{\vect{k }}} $$
$$\gdef \vv {\green{\vect{v }}} $$
$$\gdef \vytilde {\violet{\tilde{\vect{y}}}} $$
$$\gdef \vyhat {\red{\hat{\vect{y}}}} $$
$$\gdef \vycheck {\blue{\check{\vect{y}}}} $$
$$\gdef \vzcheck {\blue{\check{\vect{z}}}} $$
$$\gdef \vztilde {\green{\tilde{\vect{z}}}} $$
$$\gdef \vmu {\green{\vect{\mu}}} $$
$$\gdef \vu {\orange{\vect{u}}} $$
% Matrices
$$\gdef \mW {\matr{W}} $$
$$\gdef \mA {\matr{A}} $$
$$\gdef \mX {\pink{\matr{X}}} $$
$$\gdef \mY {\blue{\matr{Y}}} $$
$$\gdef \mQ {\aqua{\matr{Q }}} $$
$$\gdef \mK {\yellow{\matr{K }}} $$
$$\gdef \mV {\lavender{\matr{V }}} $$
$$\gdef \mH {\green{\matr{H }}} $$
% Coloured math
$$\gdef \cx {\pink{x}} $$
$$\gdef \ctheta {\orange{\theta}} $$
$$\gdef \cz {\orange{z}} $$
$$\gdef \Enc {\lavender{\text{Enc}}} $$
$$\gdef \Dec {\aqua{\text{Dec}}}$$
강의 part A
이 섹션에서는 NLP에서 쓰이는 다양한 아키텍쳐들, CNNs과 RNNs에서 시작해 최종적으로 최첨단state-of-the-art 아키텍쳐인 트랜스포머Transformer까지 커버한다. 그 다음으로는 트랜스포머를 구성하는 다양한 모듈과 어떻게 이 모듈들이 트랜스포머를 NLP 과제들에서 이점을 갖게 했는지 논한다. 마지막에 가서는, 트랜스포머를 효과적으로 트레이닝 시킬 수 있는 트릭들에 대해 이야기 할 것이다.
강의 part B
여기서는 탐욕 디코딩greedy decoding과 완전 탐색exhaustive search 사이에 위치한, 빔서치beam search를 소개한다. 생성 분포generative distribution로부터 샘플링을 하고 싶은 케이스(즉, 텍스트 생성)도 고려하여 “톱-k” 샘플링을 알려줄 것이다. 이후에는 트랜스포머 변종들과 함께하는 시퀀스-투-시퀀스 모델과 역번역backtranslation도 선보인다. 다음으로는 임베딩을 학습하기 위한 비지도 학습 접근법과 워드투벡터Word2Vec, GPT, 그리고 BERT까지 논한다.
실습
셀프-어텐션과 그 입력값의 은닉층 표현 방법에 집중하여 어텐션을 소개한다. 이후 키-밸류 저장 모형key-value store paradigm을 알려주고, 쿼리queries, 키keys, 그리고 밸류들values이 입력값의 순환으로 어떻게 나타내어 지는지 논할 것이다. 끝으로, 트랜스포머 아키텍쳐 해석을 위해 어텐션을 사용하고, 기본적인 트랜스포머를 지나 쭉쭉 나아가, 인코더-디코더 모형과 시퀀셜 아키텍쳐까지 비교한다.
Jieun