AI のモジュール型未来のささやき - 深センコーストワイズソリューションズ株式会社

ジェームズ・サマーズ著

12 月下旬のある日、私は自分が行ったインタビューを文字に起こすために使用しようと、Whisper.cpp というプログラムをラップトップにダウンロードしました。音声ファイルを入力すると、数秒ごとに 1 ～ 2 行の不気味なほど正確な文字起こしが生成され、これまでに見たことのない精度で、言われた内容を正確に書き留めました。行が積み重なるにつれて、コンピューターが熱くなっていくのが感じられました。これは、最近の記憶の中で、私のラップトップが実際に複雑なものを計算した数少ない出来事のうちの 1 つでした。ほとんどの場合、私はそれを Web の閲覧、テレビの視聴、執筆に使用しているだけです。今では最先端のAIが稼働していた

Whisper.cpp は、これまで私のラップトップで実行したプログラムの中で最も洗練されたプログラムの 1 つであるにもかかわらず、最も単純なプログラムの 1 つでもあります。音声認識の初期の AI 研究者にそのソースコードを見せたら、信じられないと笑うか泣くかもしれません。それは、常温核融合を達成するプロセスがナプキンに書けることを核物理学者に暴露するようなものです。 Whisper.cpp はインテリジェンスを抽出したものです。事実上依存関係がないという点で、現代のソフトウェアでは珍しいことです。言い換えれば、他のプログラムの助けなしで動作します。その代わりに、これは 1 万行のスタンドアロンコードであり、そのほとんどはかなり複雑な演算を行うだけです。これは、ブルガリア人のプログラマー、ゲオルギ・ゲルガノフによって 5 日間で書かれたもので、彼自身も認めていますが、音声認識についてはほとんど何も知りません。 Gerganov 氏は、ChatGPT と DALL-E を支援する同じ組織である OpenAI によって 9 月にリリースされた Whisper と呼ばれるプログラムをもとにこのプログラムを採用しました。 Whisper は 90 以上の言語で音声を文字に起こします。それらの中には、ソフトウェアが超人的なパフォーマンスを発揮できるものもあります。つまり、実際に人間よりも上手に誰かの発言を解析できるのです。

Whisper が非常に珍しいのは、OpenAI がこれをオープンソース化し、コードだけでなくアーキテクチャの詳細な説明も公開したことです。これらには、非常に重要な「モデル重み」も含まれていました。これは、ソフトウェアのニューラルネットワーク内のすべての接続のシナプス強度を指定する数値の巨大なファイルです。そうすることで、OpenAI は、ゲルガノフのようなアマチュアを含む誰でもプログラムを変更できるようにしました。 Gerganov は、Whisper を広くサポートされているプログラミング言語である C++ に変換し、実質的にあらゆるデバイスで簡単にダウンロードして実行できるようにしました。これはロジスティック上の詳細のように聞こえますが、実際には、より広範な大きな変化の兆候です。最近まで、Whisper のような世界をリードする AI は、それを開発する大手テクノロジー企業の独占的な領域でした。これらは舞台裏で存在し、検索結果、レコメンデーション、チャットアシスタントなどを微妙に強化しています。部外者がそれらを直接使用することを許可されている場合、その使用量は計測され、制御されます。

過去数年間で他にもいくつかのオープンソース AI が登場しましたが、そのほとんどはリバースエンジニアリング独自のプロジェクトによって開発されました。 LeelaZero はチェスエンジンであり、世界最高のコンピュータープレーヤーである DeepMind の AlphaZero のクラウドソースバージョンです。 DeepMind が AlphaZero のモデルの重みをリリースしなかったため、LeelaZero は個々のユーザーによってゼロからトレーニングされる必要がありました。この戦略は、プログラム自体がチェスをプレイすることで学習できるためのみ実行可能でした。同様に、説明から画像を想起させる Stable Diffusion は、OpenAI の DALL-E と Google の Imagen の非常に人気のあるクローンですが、公開されているデータを使用してトレーニングされています。 Whisper は、このクラスで初めて一般に提供された AI かもしれません。クラウドベースのソフトウェアの時代において、私たちのすべてのプログラムは基本的にプログラムを作成する会社からレンタルされているのですが、Whisper.cpp をダウンロードした以上、誰も私からそれを奪うことはできないということに、少々感動しています。ゲルガノフでもない。彼の小さなプログラムは、私のラップトップを AI にアクセスするデバイスから、それ自体がインテリジェントなマシンのようなものに変えてくれました。

研究者らは、人間レベルの音声認識は「AI には難しい」のではないかと考えていた時期がありました。これは、コンピューターが一般的な知能を備えた場合にのみ成立する可能性がある、非常に困難な問題を説明する彼らの方法です。その考えは、話し言葉には十分な曖昧さがあり、それを解析する唯一の方法は話者の意図を実際に理解することであるということでした。先週、私はラジオで、「フォードのクレーンをクレーンで運転できますか?」のような、コンピュータに聞こえるかもしれない言葉を聞きました。しかし、会話の文脈を知っていた私の脳は、それを「ウクライナに余裕はあるのか」とスムーズに解決した。意味とコンテキストの問題により、数十年にわたって音声認識が AI 分野全体の尺度として考えられるようになりました。音声を理解する唯一の方法は、それを本当に理解することだと考えられていました。

AI 研究者のリチャード・サットンは、2019 年の影響力のあるエッセイの中で、初期の音声認識プログラムには、構文、文法、音声学だけでなく、人間の口の形状がどのような音を出せるかについての専門的な言語学の知識が詰め込まれていたと説明しています。これらのプログラムは洗練されているにもかかわらず、あまりうまく機能しませんでした。 1970 年代には、統計的手法への転換があり、専門知識は省略され、データから学習されるパターン、たとえばどの音と単語が組み合わされる傾向があるかが優先されました。このアプローチの成功は他の AI にも波及し、この分野では膨大な量のデータから抽出された統計に重点が置かれるようになりました。この戦略は成果を上げました。1990 年までに、消費者向け音声認識の最先端技術は、リアルタイムで動作する DragonDictate と呼ばれるプログラムになりました。しかし、Dragon はユーザーに明確に発音し、単語ごとに一時停止することを要求し、9,000 ドルの費用がかかりました。 1997 年に同じ会社が Dragon NaturallySpeaking をリリースし、大きな改良が加えられました。話しかけるときに一時停止する必要はもうありません。それでも、本当に自由に流れる音声、訛りのある音声、または専門的な音声の精度は比較的低かった。この頃、私のゴッドファーザーが、長年の早期導入者であり、車の中で音声認識システムを披露していたのを覚えています。彼はそれを使って自動車電話から家に電話をかけた。ダイヤルする方が簡単だったでしょう。

音声認識プログラムは、シームレスにするにはまだ不具合が多すぎました。彼らの間違いを正すのには時間がかかりました。それでもなお、それらは気が遠くなるような複雑さでした。 Dragon NaturallySpeaking に似た当時最先端の音声認識システムについて説明した 1999 年の教科書は 400 ページを超えました。それを理解するには、隠れマルコフモデル、スペクトル分析、および「ケプストラル補正」と呼ばれるものなど、音に特有の複雑な数学を習得する必要がありました。この本には 3 万行のコードを含む CD-ROM が付属しており、その多くは音声と音声の気まぐれな内容に当てられています。統計を取り入れることで、音声認識は奥深く、難しい分野になりました。進歩は漸進的にしか起こらず、痛みも増大するように見えた。

しかし、実際にはその逆が起こりました。サットン氏が 2019 年のエッセイで述べたように、70 年にわたる AI 研究の結果、「計算を利用する一般的な方法が、最終的には最も効果的であり、大幅に効果的である」ことが明らかになりました。サットン氏はこれを「苦い教訓」と呼びました。これは苦い教訓でした。AI プログラムに、より賢明で技術的なアルカナを詰め込むことが進歩に不可欠ではないだけでなく、実際には障害になるという事実に、何か腹立たしいものがあったからです。学習方法を知っていて、高速なコンピューター上で実行され、複雑な問題を自ら解決するという任務を負う、より単純なプログラムの方が良かったのです。サットン氏は、自分の知っていることをすべて AI に詰め込むと、最初は短期的な改善が得られることが多いため、教訓を再学習する必要があったと書いています。新しい知識を得るたびに、プログラムはわずかに改善されますが、長期的には複雑さが増すため、より速く進歩する方法を見つけるのが難しくなります。一歩下がって専門知識を取り除き、生の計算を優先した手法が常に勝利を収めました。サットン氏は、AI研究の目標は「私たちが発見したものを含む」プログラムではなく、「私たちと同じように発見できるエージェント」を構築することであるべきだと結論付けた。近年、AI研究者は苦い教訓をきっぱりと学んだようだ。その結果、驚くべき新しいプログラムが次々と誕生しました。

講義を文字に起こし、インタビューを書き留めてテープを打つようになって以来、私はそれをやってくれるプログラムを夢見てきました。転写プロセスに非常に時間がかかり、何度も少し巻き戻す必要があったため、手と背中がけいれんしてしまいました。ジャーナリストとして、何が私を待っているかを知ることで、おそらく私の報道は歪められたでしょう。テープレコーダーを持って誰かと直接会うよりも、電話で話して、その場で良い部分を入力するだけのほうが簡単に思えることがよくありました。およそ 5 年前、恥ずかしさと安堵感が入り混じった気持ちで、私は他人にお金を払って文字起こしをしてもらうようになりました。私は Rev というサービスを利用しました。これは、作業をファームアウトしてカットを行ってくれました。面接は 1 回だけで約 100 ドルと高価でしたが、その値段が労力を物語っていました。 Rev にははるかに安価な AI オプションがありましたが、私が試した他の文字起こしプログラムと同様、迷惑なほど不正確でした。間違ったトランスクリプトを自分で入力するよりも、修正することに多くの時間を費やす必要があるように感じました。

1 年半前、Otter.AI というサービスについて聞きました。これは、これまでに登場したどのサービスよりも、種類の違いを示唆するほど優れていました。句読点はあまり得意ではなく、それでもあちこち修正する必要がありましたが、面倒な聞き直しが不要になった最初の文字起こしプログラムでした。とても感銘を受けたので、それが私のワークフローの定期的な一部になりました。かつては不可能だった問題が、ほぼ実現に近づいているように見えました。

昨年末、Whisper がどこからともなく現れたとき、私の問題は完全に解決されました。 Whisper は基本的に私と同じくらい文字起こしに熟練しています。このプログラムは微妙な専門用語を拾い上げ、その音が他の単語と混同されやすい可能性のある単語を処理します。たとえば、機械エンジニアが「これを CAD で作成するには時間がかかります」という言葉を正しく聞き、「CAD」（「コンピューター支援設計」の頭字語）を正しく大文字でさえも認識します。「もうすぐ発送します。もうすぐ発送します。次の商品が発送されます。」のように、人の自己中断を中断する方法を見つけ出します。これは無料で、私のラップトップ上で実行でき、概念的には、これまでに登場したものよりもはるかにシンプルです。

10年近く前、私は音声の文字起こしが本当に普及したらどうなるだろうかと考えてエッセイを書きました。まず、口述筆記がさらに多くなる可能性が高いと思われます。（すでに、携帯電話に向かって話すのは不自然に感じますが、ますますそうすることが多くなりました。）テクノロジーが一定の品質に達すれば、法廷記者の仕事はなくなる可能性があります。アーキビストは、昔の演説、会議、証言録取書、ラジオ放送の録音が検索可能になったことを喜ぶかもしれない。さらに大きな変化が起こる可能性もあります。私たちはよく話しますが、そのほとんどすべてが空に消えてしまいます。もし、人々が当然のこととして会話を録音し、トランスクリプトを作成し、私たちが古いテキストや電子メールを振り返るように、それらを参照できるようになったらどうなるでしょうか? おしゃべりを溜め込むことには、私にとって魅力的なものがあります。話すことは間違いなく私のお気に入りの活動であり、それを保存することでそれを尊重するというアイデアが大好きです。しかし、自然な会話の中で自社のブランド名が言及されることを調べるために、広告主が多額の費用を払っていることを思い浮かべるでしょう。愚かなコメントのせいで友人や仕事を失うことを想像します。本当に、その見通しは恐ろしいです。

ウィスパーの話は、AI の歴史と今後の方向性について多くのことを明らかにしています。ソフトウェアがオープンソースであれば、それを自分の目的に合わせて調整できます (完成したおもちゃではなく、レゴの箱のようなものです)。そして柔軟性のあるソフトウェアは驚くほど長持ちします。 1976 年、プログラマーの Richard Stallman は、今日でもソフトウェア開発者の間で広く人気のある Emacs と呼ばれるテキスト編集プログラムを作成しました。私はプログラミングだけでなく執筆にも使用しています。オープンソースなので、記事のメモの管理に役立つように変更することができます。私は、誰かが改変したコードを別の誰かが改変し、また別の誰かが改変したコードを改変しました。これはストールマンにまで遡る一連のいじくり回しでした。

すでに、Whisper でも同様のことが起こっています。映画製作者でありソフトウェア開発者である私の友人は、インタビューからの抜粋を見つけやすくするために、ドキュメンタリープロジェクト内のすべての音声ファイルとビデオファイルを文字に起こすツールの薄いラッパーを作成しました。 Twitch ストリームや YouTube ビデオを書き起こしたり、携帯電話でプライベート音声アシスタントとして機能するプログラムを構築した人もいます。プログラマーのグループは、誰が話しているのかに注釈を付けるようにツールを教えようとしています。 Whisper.cpp を開発した Gerganov は最近、ユーザーが何もダウンロードする必要がないように Web ベースのバージョンを作成しました。

ほぼ完璧な音声認識は、単なるアプリケーションではなく、アプリケーションの構成要素となっています。これが起こるとすぐに、物事は非常に速く進みます。 OpenAI のテキストから画像へのプログラムである DALL-E が登場したとき、センセーションを巻き起こしましたが、そのオープンソースクローンである Stable Diffusion によって始まった一連の活動に比べれば、大したものではありませんでした。 DALL-E は「フリーミアム」モデルを採用しており、ユーザーは追加の画像に対して料金を支払うことができ、誰もそのコードを変更することはできませんでした。独自のデータの山に基づいてトレーニングされたため、一般的に安定拡散よりも強力で正確であることが証明されました。しかし、オープンソースコミュニティから提供される膨大な数と種類の改変、プラグイン、リミックスとの競争を強いられています。数週間以内に、ユーザーは安定拡散を適応させて「画像から画像」モードを作成し、テキストプロンプトで既存の画像を微調整するようにプログラムに指示できるようになりました。このモードを繰り返し呼び出すことで、あたかも延々と忍耐強いロボットアーティストを威圧するかのように、ユーザーが言葉で画像を繰り返し構成する新しいイラスト手法が可能になりました。

OpenAI の会話チャットボットである ChatGPT がエキサイティングなのは、それが特別にインテリジェントであるためではなく、多くの場合、でたらめや陳腐な内容の泉であるためです。 have はただそこにあり、いつでも誰でも使用できます。このプログラムの利用可能性はおそらく最も重要な特徴であり、それによって一般の人々がそれが何に役立つのかを推測できるようになるからです。それでも、ChatGPT はまだ Whisper ほどオープンではありません。自動書き込みは潜在的に非常に価値があるため、OpenAI はそれを厳密に制御することに関心を持っています。同社はプレミアムバージョンを有料にしており、ChatGPT をラップするだけの営利アプリのエコシステムが間もなく登場することは間違いありません。

しかし、最終的には、誰かが ChatGPT とほぼ同等の機能を備えた、完全にオープンソースのプログラムをリリースするでしょう。進取の気性のあるアマチュアなら、ラップトップ上で無料で実行できる方法を見つけるでしょう。人々はそれをダウンロードし、リミックスし、接続し、再考し、再想像し始めるでしょう。 AI の能力は私たちの集合知と衝突するでしょう。そして世界は私たちがまだ予測できない形で変わり始めるでしょう。 ♦