Week 12
% My colours
% Vectors
% Matrices
% Coloured math
レクチャーパートA
このセクションでは、CNN、RNNから始まり、最終的には最新のアーキテクチャであるtransformerまで、NLPの応用で使用される様々なアーキテクチャについて説明します。次に、transformerを構成する様々なモジュールと、それがどのようにtransformerをNLPタスクにおいて有利なものにしているかを議論します。最後に、transformerを効果的に学習させるためのコツについて議論します。
レクチャーパートB
本節では、貪欲なデコーディングと全状態探索の中間地点としてのビーム探索を紹介します。ここでは、生成分布からサンプリングしたい場合(テキストを生成する場合)を考え、トップk個のサンプリングを導入します。その後、sequence-tosequenceモデル(transformerを含む)と逆翻訳を紹介します。その後、教師なし学習による埋め込み学習のアプローチを紹介し、word2vec、GPT、BERTについて議論します。
演習
ここでは、self-attentionとその入力の隠れ表現に焦点を当てて、attentionを紹介します。次に、キーバリューストアパラダイムを紹介し、入力の回転としてクエリ、キー、バリューを表現する方法を議論します。最後に、transformerアーキテクチャを解釈するためにattentionを使用し、基本的なtransformerの順伝播を見ることで、エンコーダ/デコーダパラダイムをシークエンシャルなアーキテクチャと比較します。
🇯🇵 Shiro Takagi