1. 国際会議と国内会議における研究動向の比較
前回のブログでは、国内会議での研究動向を紹介した。国内の研究動向と比較する為に、今回のブログでは2022年度に私が参加したNeurIPS 2022等の国際会議における研究動向を述べていく。本ブログで全分野を語るのは困難である為、国内会議で多く聴講した「時系列予測」、「画像生成」、「対話システム」の研究動向を以下に記載する。
1) 時系列予測
時系列予測の分野では、近年言語分野で頻繁に使用されていたTransformerのようなモデルが最近多く研究されている。Transformerによって、長期依存性や変数同士の複雑な相互関係を学習することが出来る。そして、従来のRNNのような逐次処理でなく、複数の処理を同時に行う並列処理が可能なので処理時間が短い。さらに、並列化に伴い、GPUも有効活用が可能となった。
言語分野で使用する一般的なTransformerでは、Self Attention機構において、QueryとKeyの内積からQueryに対するKeyの重みAttention weightを求め、Attention weightでValueの加重平均を取る事で優先的に重視すべきものが算出されるイメージである。
しかし、言語データでない一般的な構造化データの場合、言語データで成立している(単語の分散表現の次元数d)>>(シーケンス長n)という関係性が成立せず、O(入力時系列長Lの二乗)というオーダーでSelf Attention機構に計算時間がかかってしまう。したがって、時系列データにTransformerを適用する際、この課題に対して計算・メモリ等を効率化しつつ、かつ長期の依存関係を捉えられるようにすることが重要視される。
AAAI2021で発表された論文「Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting」(https://arxiv.org/abs/2012.07436参照)で提案された「Informer」では、O(LlogL)のオーダーの計算時間となっている。「QueryとKeyの内積を全て計算せず、重要な特徴量のみを計算対象にする」、「Self Attentionの各層での出力をMaxPoolingと畳み込みにより系列長を半分の長さに蒸留し、Encoderの出力に関する次元を削減する」、「Decoder側では再帰的な時系列予測でなく、全結合層を通じて一括で時系列予測を行う」という三点の工夫で効率化している。
最近では、計算時間をさらに短縮する研究が発表されている。ICLR2022で発表された論文「Pyraformer: Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting」(https://openreview.net/forum?id=0EXmFzUn5I参照)で提案されているモデル「Pyraformer」ではO(L)のオーダーの計算時間となっている。「Pyraformer」は、時間に対する粒度の粗さで二分木のピラミッド型アテンションモジュールを持たせ、Self Attentionの前で時間方向に段階的な要約処理を行うモデルで計算効率化している。
また、ICML2022で発表された論文「FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting」(https://arxiv.org/abs/2201.12740参照)で提案されているモデル「FEDformer」も、O(L)のオーダーの計算時間となっている。「FEDformer」では、フーリエ変換とウェーブレット変換を使用して、周波数領域でアテンション操作を適用している。
Transformerを用いた際の計算時間に対する課題以外では、「過学習(overfitting)の抑制」や「過定常化(over-stationarization)の抑制」といった課題に対する研究も継続して行われている。
例えば、「過学習(overfitting)の抑制」については、NeurIPS2022で発表された論文「WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting」(https://openreview.net/forum?id=vsNQkquutZk参照)などが最新の研究として挙げられる。これは、時系列予測における過学習を防ぐ正則化手法「WaveBound」に関する論文である。「WaveBound」は、従来の損失関数を一定以上となるように調整することで過学習を防ぐ手法「Flooding」を時系列予測に拡張した手法である。単純な「Flooding」は損失関数に一定値で調整値を定めるのに対して、「WaveBound」は各時点で調整値を動的に決定する手法となっている。
また、「過定常化(over-stationarization)の抑制」については、NeurIPS2022で発表された論文「Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting」(https://arxiv.org/abs/2205.1441参照)などが最新の研究として挙げられる。
現実の時系列変化は、分布シフトが生じるような非定常な変化が多いにも関わらず、モデル学習しやすくするために前処理で定常化させることが多く、汎化的に使用しにくいという課題があった。そこで、この論文では非定常性起因の予測を考慮する為に、TransformerのAttentionに非定常性を考慮した「De-stationary Attention」を組み込んでいる。「De-stationary Attention」では、非定常なQueryとKeyをScaling VectorとShifting Vectorから考慮している。
2) 画像生成
最近の海外の研究動向としては、「テキスト⇒画像」もしくは「テキスト⇒動画」のような言語系データを用いた画像生成・動画生成に関する研究が非常に多くなってきている。
これは、「CLIP」(OpenAIがICML2021で発表)と呼ばれる視覚と⾔語の紐づくクロスモーダルな学習モデルが発表されたことにより、Zero-Shot画像分類(訓練データにない未知ラベルに対して追加学習なしで識別する画像分類)が発展したことに起因すると考えられる。当然ながら、「CLIP」の発表以前にも、いくつかモデル(「VirTex」、「ICMLM」、「ConVIRT」等)はあったが、精度がかなり低かった。「CLIP」は、画像とテキストのコサイン類似度を計算し、L2正規化の処理を施している。その後、OpenAIは「DALL・E2」を発表しており、画風やコンセプトの指示文を与えると、その内容に忠実な高品質の画像を生成することが可能になった。「DALL・E2」は、「CLIP」+「Diffusion Model(拡散モデル)」 によってテキストから画像を⽣成している。この「Diffusion Model(拡散モデル)」に関する補足説明を簡単に行う。
画像データに少しずつノイズを加えていくと、最終的に元の情報を完全に失ったノイズになってしまう。このとき、加えるノイズの大きさを調整すると、最終的に正規分布と等しい確率密度関数を持つガウシアンノイズに収束する。そこで、逆のプロセスで完全なノイズから徐々にノイズを除去していけばノイズの無い元の画像データを生成出来るはずである。この逆のプロセスに関して、一度のノイズが少量のガウシアンノイズである場合、その逆プロセスも正規分布で上手く近似できる事を活用して、拡散モデルが作成されている。
この拡散モデルは、VAEベースやGANベースの画像生成AIを超える高精度の画像を生成できており、当時話題となっていた。(NeurIPS2020で発表された「Denoising Diffusion Probabilistic Models」を参照)
しかし、ノイズの除去プロセスやノイズに加えるプロセスを多く実行しなければいけない為、データ生成に時間がかかるという欠点が存在した。その欠点を克服する為、最近の論文では、例えばピクセル空間の情報をVAEなどで圧縮した潜在空間で拡散プロセスを実行することにより、画像生成の処理を高速化している研究などもある(CVPR 2022で発表された「High-Resolution Image Synthesis with Latent Diffusion Models」で提案)。
拡散モデルを用いるメリットとして、「学習が安定的である」、「難しい生成問題を簡単な部分生成問題に分解している」といった事が挙げられる。
さらに、Googleが5月に発表した拡散モデルの「Imagen」は、「DALL・E2」よりも単純な機構で精度の高い画像生成ができている。これにより、拡散モデルを使用したテキストエンコーダーとして、大規模な事前トレーニング済み言語モデルの有効性を示している。(https://arxiv.org/pdf/2205.11487.pdf参照)
図1:「Imagen」でのテキスト⇒画像生成
さらに、拡散モデルを用いて、テキスト⇒動画を生成する手法も最近発表されている。例えば、Googleから発表された 「Imagen Video」(https://arxiv.org/abs/2210.02303参照)やMetaから発表された「Make-A-Video」(https://arxiv.org/abs/2209.14792参照)などが挙げられる。
3) 対話システム
2022年11月末に、OpenAI から対話モデルの「ChatGPT」が発表された。「GPT-3」のような言語モデルから人間との対話に最適化したものが「ChatGPT」である。「GPT-3」をはじめとした大規模言語モデルには、生成文が人間の意図に沿った文とは異なるという「アライメント問題(Alignment Problem)」が発生していた。そこで、「InstructGPT」というモデル(NeurIPS 2022で発表された論文「Training language models to follow instructions with human feedback」で提案)を利用して、人間のフィードバックを元に学習している。具体的には、「人間の用意した教師データでGPT-3をファインチューニング」⇒「ある入力に対して複数のモデルによる出力文を用意し、人間がランキング付けを行い、報酬モデル(Reward Model)に学習させる」⇒「報酬モデルを用いて、RLHF(Reinforcement Learning from Human Feedback)でGPTモデルに対する強化学習を行う」という3ステップで学習を行っている。なお、報酬は「Truthfulness」(真実であること)、「Harmlessness」(無害であること)、「Helpfulness」(タスクを解決していること)を中心に決定している。また、この強化学習では、ポリシーの大きな更新を抑えて学習する安定的な手法の一つであるPPO(Proximal Policy Optimization)が使用されている。
そして、「ChatGPT」ではデータを人間が作った対話データに対して、GPT-3.5というGPT-3の後継版を用いて学習している。基本的なモデルは「InstructGPT」をベースにしており、それを対話特化させたと考えられる。
ChatGPT以外にも、以下のような大規模言語モデル(LLM)が発表されている。
<Googleの発表した対話用言語モデル「LaMDA」>
1370億のパラメータ数を持つモデルで、公開可能なWEBドキュメントで1.56兆の単語から学習している。
論文「LaMDA: Language Models for Dialog Applications」では「Quality(品質)」、「Safety(安全)」、「Groundedness(根拠)」という3つの指標で評価している。
(https://arxiv.org/abs/2201.08239を参照)
※Google I/O 2022の基調講演では、質疑応答の可能な対話用言語モデル「LaMDA2」を発表している。
<DeepMindの発表した「Chinchilla」>
700億のパラメータ数を持つモデルで、計算量に対して最適な性能を出力している。他言語モデルと比較して、より少ないパラメータ数でより大きなデータセットを学習して、GPT-3やGopher等よりも精度の高い結果を残している。
国内会議・国際会議ともに研究事例の多かった「時系列予測」、「画像生成」、「対話システム」に対象を絞り、前回のブログ・上記の内容をまとめた研究動向に関する比較表が表1となる。国際会議では学習効率化させたモデルや精度向上したようなモデルといったモデル中心の研究が多く見受けられる。一方で、国内会議ではデータ加工や特徴量抽出などのデータに重点を置いた研究が多く見受けられる。
表1:2022年度の国内会議における研究動向と国際会議における研究動向
分野 | 国内会議の研究動向 | 国際会議の研究動向 |
---|---|---|
時系列予測 | RNN・LSTM等の既存モデルに様々なデータを適用させ、精度を比較検討する研究が多い。それに加え、データ加工に関する言及を行っている研究もしばしば見られる。 | 「Pyraformer」や「FEDformer」等で提案されているような、時系列データに対するTransformerの学習効率化に関する研究が多い。 他には、「過定常化」等の課題に対する研究もしばしば見受けられる。 |
画像生成 | 「CycleGAN」や「StyleGAN」等の既存モデルを応用して、特徴量抽出、前処理等でデータ処理に対する工夫を加えた研究や損失関数に工夫を加えた研究が多い。 また、研究目的に言語系を絡めない研究が多い。 |
「DALL・E2」や「Imagen」などのDiffusion Modelを用いた画像生成の研究が多い。 また、研究目的に言語系を絡めた研究が多い。 |
対話システム | 「BERT」や「GPT-2」等の既存モデルのファインチューニングしたモデルと他の既存モデルを融合させる研究、もしくはデータ拡張や他形式のデータを融合させる研究が多い。 | 従来の大規模言語モデル(LLM)を活用して、強化学習などで無害性や対話の品質を改善するようなモデルの研究が多い。 |
※国内会議・国際会議ともに研究事例の多かった「時系列予測」、「画像生成」、「対話システム」に対象を絞っている。
2. 今後の国内研究動向の予測
前述した通り、国内では新しいモデルの研究よりも、海外で作られた複雑なモデルを用いて、データの追加、前処理・特徴量抽出やデータ分析(クラスタリング等)といった手法で精度向上させていく研究が多いと感じられた。一方、海外ではデータ加工・データ分析を重視するよりも、モデルを大規模化させ、さらに教師データを大量に増やし、新しいモデルを開発するといった研究が多くなってきている。
Transformer+自己回帰モデル+クロスエントロピー損失の場合の言語モデルにおいて、「計算リソースCが決まっている場合の最適なモデルサイズNはCβ(β~0.7)に比例する」及び「計算資源Cを一定値とした際、最適なモデルサイズNと最適なデータサイズDにべき乗則が成立する(D∝N0.4)」と発表している論文(「Scaling Laws for Autoregressive Generative Modeling」、https://arxiv.org/abs/2010.14701参照)がある。この論文が発表されてから、海外ではモデルの大規模化に拍車がかかったように感じている。他のモデルやデータ等でも成立するのかは定かではないが、もし成立するのであれば、逆説的に「いくらモデルを複雑化したところで、良質で大量なデータ(アノテーション含む)と大規模な計算環境の両方を保有していないのであれば精度が中々向上しない」とも考えられる。海外でも、大量のデータと大規模な計算環境の両方を保有していないGAFAM以外の企業では、研究開発を行いにくいという「AI格差」が指摘されている。
日本国内では、著作権等との兼ね合いで検索エンジンが中々発展しなかった上、精緻化されたデータ基盤(システムのサイロ化もインターフェイスのスパゲティ化も無い基盤)を設置している環境も数少ない為、良質で大量なデータを保有していない状況が多い。したがって、海外で開発された汎用モデルの外堀を工夫する研究以外が出来ない、といった背景が見え隠れしている。良質なデータを大量に保有する為の環境を整備するにはある程度の時間がかかるので、当面はデータが少ない環境下で海外との研究開発競争になる。そのような環境下で海外とまともに闘う為には、今後、以下の研究分野により一層注力していくのではないかと考えられる。
<国内で注力されそうな研究分野1>少数のデータで学習できるデータ分析手法
少数のデータで学習できるようなデータ分析手法としては、NeurIPS 2022の論文賞にも選定された「Beyond neural scaling laws: beating power law scaling via data pruning」(https://arxiv.org/abs/2206.14486参照)で提案されているデータの間引きなどが一例として挙げられる。
<国内で注力されそうな研究分野2>少数のデータで学習できる新しいモデル開発
少数のデータで学習できるような新しいモデルとしては、阪大で研究されているような「ゆらぎ学習」(http://nbic.ist.osaka-u.ac.jp/yuragi.html参照)などが一例として挙げられる。
<国内で注力されそうな研究分野3>非定常性を考慮した新しい時系列予測のモデル開発
時系列予測の汎化モデル化が難しい一因として、非定常性を考慮する必要性が挙げられる。そこで、非定常性に焦点に当てた時系列予測モデル開発が進むのではないかと思っている。なお、構造化データに近い時系列データは他種別のデータに比べて比較的保有量も多い上、学習コストも少ない為、非定常性を考慮した新しい時系列モデルの検証も行い易いと考えられる。
【執筆者:ITI伊藤 成顕 プロフィール】
大手製造業にて、新設工場の大規模システム構築、IoT構築やAI含む高度なシステム開発などに従事。過去蓄積したノウハウを活用し、DX戦略、DX実現の支援を行うアイ・ティ・イノベーションにて、お客様と共にプロジェクトの成功に奔走している。