トップ Tsugiブログ GameSynthに搭載されているAI機能
GameSynth 2022
2023/04/07

GameSynthに搭載されているAI機能

GameSynthのいくつかの機能は、最先端のAIアルゴリズムによって強化されており、特にリポジトリとModularモデルでその真価を発揮しています。

本ブログでは、GameSynthのAIの機能をいくつか紹介し、さらに今後ジェネレーティブAIによって起こり得る事へのヒントも紹介していきます。

リポジトリマップ

GameSynthリポジトリは、現在まで世界最大のプロシージャルサウンドモデルのコレクションを提供しており、1000以上のパッチがカテゴリ別に細かく整理、タグ付けされています。

リポジトリには、データベースをテキスト、日付、モデルなどで検索できる従来のクエリ(検索キーワード)だけでなく、知覚的類似性によってパッチをグループ化して配置する、つまり似た音同士を互いに近く配置するマップ機能も搭載されています。



これは、作成しようとしているサウンドのレイヤー候補(ミックスされた類似サウンド)を見つけたり、パッチ設計の新しいアイデアを見つけるのに役立ちます。たとえば、マップ上でExplosion(爆発)パッチを参照すると、Noise(ノイズ)ジェネレーターを中心に使ったパッチもあれば、Thunder(雷)モジュールを使ったパッチも周辺にあることに気づきます。試聴しつつ、「次はこの音も試してみよう」といったようにアイデアが得られるかもしれません。

この機能は、機械学習手法における教師あり学習である自己組織化マップを中心に構築されています。自己組織化マップは、データのトポロジー構造を維持しながら、高次元のデータセットの低次元表現を生成します。GameSynthリポジトリの場合、プロシージャルモデルに関連付けられたより複雑なデータの2次元マップを作成する一方で、類似するサウンドを生成するパッチを互いに近くの距離に保ちます。

手持ちサンプルの類似音モデルを見つける

GameSynthリポジトリのもう1つの便利な機能として、手持ちのwaveファイルをドロップすると、それと似た音を出すパッチ候補を複数列挙してくれる検索機能があります。

これによって、作りたい音をパッチングする最初のヒントが得られるでしょう。


この類似音パッチの検索には、ニューラルネットワークが使われています。これは、リポジトリ内のパッチによって生成されたオーディオ信号を使用してトレーニングされています。このような機能には、メル周波数ケプストラム係数(MFCC)、スペクトル密度、セントロイド、フラックスなどがあります。Waveファイルがツールにドロップされると、その特徴が計算され、ニューラルネットワークにフェッチされ、最も近いパッチが返される仕組みです。

ランダムにパッチを作り出そう

GameSynthのパッチング環境であるModularモデルでは、130以上の合成、処理、ロジック、および制御モジュールを組み合わせて、高度なプロシージャルサウンドモデルを作成できます。多くのサウンドデザインブログも投稿されていますが、そのモジュールの膨大さに、最初はどこから手をつけていいか戸惑うこともあるでしょう。

そこでGameSynthには、コンテキストメニューまたは「Ctrl + P」ショートカットからアクセス出来る、ランダムパッチ生成機能が搭載されており、AIを使って独自のランダムパッチを作成することができます。 このAIシステムにより、自動生成されたパッチが有効な構造を持つこと、およびモジュールのパラメーターが組み合わされて可聴信号が生成されることがチェックされます(つまり、構造的な問題があったり、音が聞こえないようなパッチは生成されません)。



ランダムに作り出されるパッチは、AIが新たなコンテンツ(効果音)を作成するための大まかなアイデアをくれるので、ワークフローの合理化が期待できます。

未来のサウンドツールにむけて

次はどんなクリエイティブツールが世に登場するでしょう?
近年ジェネレーティブAIの分野は、ChatGPT、Midjourney、Stable Diffusionなどの人気ツールで話題になっています。自動でサウンドコンテンツを生成するツールはやや難しいかもしれませんが、将来的にはそういったツールも登場するでしょう。

ただし、生成されたコンテンツには、「インタラクティブなアプリケーションでのリアルタイム制御性に欠ける」「大きなメモリとストレージのフットプリント」「リアルタイムにバリエーションを作成できない」といった、サンプル素材と同様の問題も抱えることになるでしょう。

未来のサウンドツール


プロシージャルオーディオは、これらの問題をすべて解決できます。Tsugiは現在、プロシージャルオーディオモデルの世界最大のデータベース(リポジトリ)を持っており、それらはテキストベースで適切に構造化されており(GameSynthの場合はXMLファイル)、既にタグ付けされ分類されているため、小規模な言語モデルまたはGAN (Generative Adversarial Network) を記述して、新しいモデルを自由に作成できます。

ゲーム、アニメーション、映画のサウンドコンテンツを作成するための、Tsugiのエキサイティングな新AI機能に今後もご期待ください!




Copyright © Tsugi GK. All rights reserved.