Amazon の Echo および Echo Dot スマート スピーカーの成功により、音声コマンド (音声 UI または音声 UI と呼ばれることが多い) が新しいテクノロジー製品の一般的な機能になりました。あらゆるスマートフォンやタブレット、ほとんどの新車、そして急速に増加しているオーディオ製品に搭載されています。最終的には、ほとんどの家電製品、オーディオおよびビデオ製品、さらにはフィットネストラッカーなどのウェアラブルデバイスにも音声コマンド機能が搭載されるようになります。 「目的の信号(ユーザーの音声)とノイズ(その他の音)の比率が優れているほど、音声 UI システムはより確実に動作します。」 現在、何百万もの音声 UI 製品が利用可能であり、消費者がこれらのデバイスに何を期待しているか、そしてその期待に応えることがいかに難しいかが見え始めています。より原始的な音声コマンド製品の成功が限られていることは、「Alexa」や「OK Google」などのウェイクワードの学習以外に、ボタンを押してデバイスを起動したり、リモコンに直接アクセスしたりするなど、これらの製品が要求するその他の要件に消費者が適応する意思がないことを示しています。少なくとも家庭内では、消費者は音声 UI 製品が部屋の反対側、あるいは可能であれば部屋の反対側からのコマンドに応答することを期待しています。部屋の音響特性や、製品が部屋のどこに配置されているかに関係なく、信頼性の高い音声認識が期待され、中程度に大きな周囲の騒音の中でも音声 UI が機能することが求められます。 高度な音声認識システムはインターネットベースのコンピューティング能力に依存していますが、音声 UI システムのパフォーマンスの多くは、システムが受信する音声信号の品質に依存します。 「ゴミを入れればゴミが出てくる」という格言は、他のテクノロジーと同様に、これらのシステムにも当てはまります。必要な信号(ユーザーの音声)とノイズ(その他の音)の比率が優れているほど、音声 UI システムの信頼性が高まります。 音声 UI システムは、コマンドを拾うために複数のマイクを使用します。音声認識システムの精度は、これらのアレイがユーザーの音声に焦点を合わせ、周囲のノイズやデバイス自体からの音などの不要な刺激を排除する能力に大きく依存します。これらのアレイと制御アルゴリズムを最適化するための研究のほとんどは、これらの製品を開発する企業によって厳密に追跡されており、製品開発者の数は少なくなっています。 問題を複雑にしているのは、マイクアレイの設計に不慣れであることです。 スピーカーの設計とアプリケーションに関する専門知識を持つエンジニアは数多くいますが、マイクの経験ははるかに少ないです。また、ほとんどのエンジニアの耳は通常、スピーカーの問題点を大まかに把握できますが、マイクのパフォーマンスを評価するのははるかに困難です。 アレイ内のマイクの数が増えるにつれて、課題はますます複雑になります。 次に、エンジニアは、アレイで使用するのに最適なマイクの種類、使用するマイクの数、およびマイクをどのような物理的構成で配置するかを決定する必要があります。 そのため、マイクロフォン アレイがユーザーの音声の方向を識別し、その音声に集中しながら他の音を排除できるようにする処理アルゴリズムが必要になります。このようなアルゴリズムは多数ありますが、マイクの性能、アレイのサイズと構成、およびマイクが取り付けられている筐体の音響に合わせてすべてを最適化する必要があります。 音声UIで使用されるマイク 音声 UI 製品で使用されるマイクはほぼすべてモノラルです。 MEMS (Micro Electrical Mechanical Systems) には、音声 UI 製品用のマイク アレイの設計において多くの利点があります。 小型: MEMS は通常、1 辺が 5 mm 以下なので、小型製品に最大 7 個のマイクを搭載できます。表面実装設計によりフットプリントがさらに縮小されます。 低コスト: 製品内のマイクの数が増えると、コストが重要な考慮事項になります。 MEMS 集積回路は安価な傾向があり、高価な A/D コンバータを必要とせずに PDM (パルス デジタル変調) ポートを備えたプロセッサと直接インターフェイスすることもできます。 一貫性: マイクロフォン アレイの予測可能な機能には、アレイ内の複数のメトリックが適切に一致している必要があります。 MEMS マイクロフォンは、IC の製造に使用されるプロセスと同様に完全に自動化されたプロセスを使用して製造されるため、ユニット間の一貫性は一般に良好です。 音声 UI 製品で使用されるマイクのほとんどは全方向性で、あらゆる方向からの音を拾います。 マイクロフォン アレイの指向性はマイクロフォンの固有の指向性ではなくアルゴリズムによって構築されるため、全方向性マイクロフォンを使用すると、さまざまなマイクロフォン信号を処理する際にアルゴリズムがビームを拾う方法に完全な柔軟性を持たせることができます。 全指向性マイクのもう 1 つの利点は、指向性マイクよりも満足のいく周波数応答を備えていることです。この機能により、アルゴリズムの処理負荷が軽減されるため、製品の組み立て時の向きの問題がなくなります。利用可能な MEMS マイクロフォン オプションの中で、マイクロフォン アレイ設計者は、感度、ノイズ、周波数応答のマッチング、デジタルおよびアナログ出力などのさまざまな機能と特性から選択できます。 音声UIアルゴリズムのコンポーネント 音声 UI 製品のアルゴリズムは、実際には複数のアルゴリズムの集合であり、各アルゴリズムには、マイク アレイがユーザーの音声に焦点を合わせ、不要な音を無視するのに役立つ特定の機能が備わっています。以下は、音声 UI で使用される一般的なアルゴリズムの簡単な説明です。 トリガー/ウェイクワード 音声 UI システムでは、「Alexa」や「OK Google」などの指定されたウェイクワードが使用されます。ユーザーはこの単語を使用して音声 UI デバイスをアクティブ化します。このウェイクワードは、デバイスが独自のアルゴリズムを使用してすぐに認識する必要があり、インターネット リソースを使用すると遅延が大きくなりすぎるため、難しい場合があります。デバイスはウェイクワードを常にリッスンする必要があるため、ある程度アクティブな状態を維持する必要があります。 適切なウェイクアップワードを選択することは、音声 UI デバイスを操作する上で非常に重要です。ウェイクワードは、アルゴリズムが通常の音声と簡単に区別できるような、マイク出力で固有の波形を生成できるほど複雑である必要があります。そうでない場合、認識成功率が許容できないほど低くなる可能性があります。ウェイクアップワードは、一般的に使用される単語やフレーズにすることはできません。そうしないと、誤ったウェイクアップの頻度が許容できないほど高くなる可能性があります。また、フレーズが長すぎるのも良くありません。フレーズが長ければ長いほど、ユーザーがデバイスがひどいと思う可能性が高くなるからです。通常、3〜5 音節の目覚ましワードが最適です。 ウェイクワード アルゴリズムのパフォーマンスを評価する際に考慮すべき主な要素が 2 つあります。まず、ウェイクアップがないのにアルゴリズムがウェイクアップを示す頻度はどのくらいでしょうか? これは、1 時間あたりの誤覚醒回数として測定されます。第二に、アルゴリズムはバックグラウンドノイズが存在する場合でもウェイクワードを正しく検出できるでしょうか?これは認識率で測定されます。 ほとんどのウェイクアップ アルゴリズムにはさまざまなサイズがあります。 小さなアルゴリズムはメモリと CPU 処理の使用量が少なくなりますが、間違いが多くなります。一方、大きなアルゴリズムはより多くのリソースを必要としますが、間違いは少なくなります。モデルは調整可能で、製品設計者はモデルをより厳しく(誤覚醒は少なくなるが覚醒しにくくなる)、またはより緩く(誤覚醒は増えるが覚醒しやすくなる)することができます。ほとんどの製品設計者は、ユーザーがコマンドを発行するときに時々同じことを繰り返すことには問題ないが、誤ったトリガーに対しては寛容ではない傾向があるため、より厳しい規制を選択します。 「アルゴリズムに組み込む適切なウェイクアップワードを選択することが、ウェイクアップワード認識の鍵となり、音声UIデバイスを操作することになります。」 偽覚醒は、数時間の音声コンテンツを再生し、偽覚醒の頻度を数えることによって測定されました。このテストでは、異なるモデル サイズ間のパフォーマンスの違いが明らかになります。図 1 は、さまざまなチューニングにおける小、中、大のウェイクアップ ワード モデルのパフォーマンスを比較しています。 この場合、1 時間あたり 1 回以下の誤トリガーが妥当な目標となります。 この小型モデルでは、図の左側にある 2 つの最も厳しい調整によってのみこれを実現できます。 中型および大型モデルでは、より広範囲の操作でこれを実現します。 図1: 小規模、中規模、大規模アルゴリズムモデルを使用して、1時間あたりの誤起動をテスト。左側は厳格、右側は緩い ウェイクオンノイズアルゴリズムのパフォーマンスを測定すると、周囲のノイズがある場合のウェイクオン認識率を決定する主な要因は、マイクで測定された信号対雑音比 (SNR) であることが研究で示されました。 「信号」はマイクに届く人間の声の大きさを示し、「ノイズ」は背景ノイズのレベルを示します。 テストでは、家庭内でよく見られるノイズと波形をシミュレートするために「バブル」ノイズが使用されました。 図 2 は、3 つのモデル サイズのグラフを示しています。いずれも、1 時間あたりの誤起動が 2 回未満になるように調整されています。 x 軸は SNR を表し、右側に行くほど信号対雑音比が高くなります。 Y軸は認識の確率です。 ほとんどの場合、アルゴリズムのパフォーマンスは 1 dB または 2 dB 以内で同一です。 ほとんどのオーディオ再生デバイスの 80 ~ 120 dB の SNR と比較すると、約 10 dB の信号対雑音比は許容できないと思われることに注意してください。 ただし、音声 UI アプリケーションでは、ユーザーの音声は通常、周囲のノイズよりも数デシベル大きいだけであり、下の図に示すように、音声 UI アプリケーションでは 10 ~ 20 dB の SNR で最良の結果が得られます。 したがって、SNR が 2 dB 増加すると、オーディオ再生システムでは同じ増加が主観的に知覚できない程度であっても、音声 UI のパフォーマンスが大幅に向上する可能性があります。 「... SNR が 2 dB 増加すると、オーディオ再生システムでは同じ増加が主観的に目立たない場合でも、音声 UI のパフォーマンスが大幅に向上する可能性があります。」 図 2: SNR の関数としてのトリガー ワード検出のパフォーマンス。 3 つの異なるモードがテストされ、モデルが大きいほどパフォーマンスが向上しました。 DOA 到着方向 ウェイクアップワードが認識されると、次のステップはユーザーの声がどこから来ているかを判断することです。 方向が決定されると、DOA アルゴリズムはビームフォーミング アルゴリズムに焦点を合わせる方向を指示します。 DOA アルゴリズムの中心的な機能は、アレイ内の異なるマイクから発せられる信号の位相または遅延関係を調べ、この情報を使用してどのマイクが最初に音を受信するかを判断することです。 しかし、この作業は見た目よりも複雑です。 部屋の壁、床、天井、その他の物体からの反射により、ユーザーの声はユーザーの口から直接聞こえるだけでなく、他の方向からも聞こえます。 DOA 判定に必要なのは最初の音だけであり、それ以降の反射は除去する必要があります。 このため、DOA アルゴリズムには、より大きな音の最初の到達をより静かな反射から分離する優先ロジックが含まれています。この機能は、室内の音の反射を電子的に除去します。また、アルゴリズムを慎重に調整すれば、スマート スピーカーの後ろの壁など、近くの表面からの反射も排除できます。 周囲の騒音レベルを自動調整することで、DOA アルゴリズムの動作効果が向上します。このアルゴリズムは、室内の平均騒音レベルを測定し、着信信号が周囲の騒音を一定デシベル以上超える場合にのみ、ユーザーの音声位置を再計算します。 これにより、システムは比較的低レベルのノイズに惑わされることなく、特定の方向にロックすることができます。 DOA アルゴリズムの精度を測定するには、半径 1 メートルの円上にマイク アレイの周囲に 8 つのスピーカーを均等に分散させる必要があります。 8 人のスピーカーすべてが拡散音場バックグラウンドノイズを再生し、1 人のスピーカーはノイズに加えてウェイクワードを再生しました。音響レベルは 60 dBa に固定されており、測定されたマイクロフォンと拡散場ノイズのレベルは図 3 に示すように異なっていました。 図 3: 到着方向テストの結果を示すマトリックス。 行インデックスは音が実際に来た方向に対応し、列インデックスは DOA アルゴリズムによって返された方向を表します。 マトリックスは、特定のノイズ レベルでのアルゴリズムの全体的な精度を表す単一の数値に圧縮されます。 DOA アルゴリズムでは、エラーは正しい値からどれだけ離れているかに応じて重み付けされるため、使用される単一の数値の結果は、特定の SNR の度単位のエラーになります。図 4 は、DOA アルゴリズムが平均誤差が非常に小さい状態で適切に機能していることを示しています。 図4: DOA合成結果。 X 軸はウェイクアップワードの信号対雑音比を表し、Y 軸は偏差誤差を表します。 DOA アルゴリズムは、SNR が 0 dB を超えると効果的なパフォーマンスを提供し始め、SNR が 5 dB を超えると正確なパフォーマンスが得られます。 AECエコーキャンセル スピーカーやカーオーディオ システムを統合した音声 UI デバイスでは、音声コマンドに干渉するノイズ源の 1 つは、音響フィードバック、音楽、ラジオなどを再生できるスピーカー自体です。 音声 UI デバイスでは、マイク録音からスピーカーからの音を差し引く必要があります。 これは、スピーカーからの位相のずれた信号とマイクからの信号をミックスし、音がスピーカーからマイクに伝わるまでの時間を補うためにわずかに遅延させるだけのように思えるかもしれません。 ただし、このプロセスは AEC アルゴリズムの出発点に過ぎず、実際のアプリケーションで発生する多くの複雑さを処理するには不十分です。 最初の複雑な要因は、スピーカー、スピーカーのバランスをとるために使用される DSP、およびアレイで使用されるマイクの波形が、使用されている特定の材料によって変化する可能性があることです。 幸いなことに、マイクの入力信号を元の(DSP)入力信号と比較して、補正曲線を計算することは可能です。 しかし、音波の反射の影響も受けます。 こうした反射音は数千に及ぶ場合があり、広いリビングルームでは、スピーカーからの直接音から 1 秒以内にマイクに到達することもあります。部屋のモードや室内の家具の吸収効果に応じて、反射されたスペクトル内容はスピーカーの直接音のものと異なります。 これらの効果は環境ごとに異なり、人やペットが部屋の中を動き回ったり、車内の乗客の数が変わったりすると変化します。 許容可能な信号対雑音比を達成するために、マイク信号から十分な音響エコーを減算するには、AEC アルゴリズムは、一定の誤差範囲内で素材に一致し (音響によって引き起こされる波形の変化を補正するため)、定義された時間ウィンドウ内で予想される残響時間に対応するサウンドを見つける必要があります。 アレイ内のマイク間の距離により、各マイクはわずかに異なるエコーのセットとスピーカーからの異なる直接音を受信するため、最適な信号対雑音比を実現するには、各マイクに対して個別の AEC 処理が必要になります。 エコー キャンセラのパフォーマンスは通常、「エコー リターン ロス拡張」または ERLE によって定義されます。 これは、エコー キャンセラーがマイクでのスピーカー信号を低減できるゲインの減少です。 エコーキャンセラーは、一般的に少なくとも 25 デシベルをキャンセルでき、優れた性能を持つものは 30 デシベル以上をキャンセルできます。 AEC が反射を探すのに費やす時間は、「エコー テール長」と呼ばれます。エコー テール長が長いほど、キャンセルできる反射が多くなり、アルゴリズムのパフォーマンスが向上します。 ただし、波尾が長くなると、より多くのメモリと CPU が必要になります。図 5 は、テールの長さの関数としてのエコー リターン損失を示しています。 測定は半無響室で実施されました。それらのほとんどは、200 ミリ秒の尾部の長さとより長い波尾部で達成されていることがわかります。 図 5: テール長さの関数としてのエコーキャンセラの性能。 測定は半反響音響室で実施され、200 ミリ秒後にはほとんど改善が見られませんでした。 半反響室は扱いが比較的簡単ですが、実際の使用状況を代表するものではありません。 図 6 は、反響が大きくなる部屋でのエコー キャンセラーのパフォーマンスを示しています。 より長いエコー テールの必要性は明らかであり、最も反射率の高い空間ではより長いエコー テールが役立ちます。 図5: 4つの部屋でのエコーキャンセルテスト AEC アルゴリズムは、スピーカーが線形に動作する場合により優れたパフォーマンスを発揮します。 スピーカーに著しい歪みが生じると、歪み高調波が生成されますが、AEC はこれを元の反射として認識しないため、キャンセルできません。 スピーカーの全高調波歪み (THD) は、スピーカーの線形性を示す指標です。信号レベルに対する THD の割合が低いほど、スピーカーの動作は柔軟になります。 AEC ではキャンセルできないため、スピーカーの歪みが AEC の出力に現れます。 たとえば、スピーカーの THD が 1% の場合、歪み成分は信号レベルより 40 dB 低くなります。 エコー キャンセラーの ERLE が 30 dB の場合、THD は 1% まで許容されます。 ここで、THD が 10% の場合を考えてみましょう。 この場合、歪み成分は信号レベルより 20 dB 低いため、AEC を圧倒することになります。 3% THD では 30 dB 未満の歪みが発生しますが、それでも AEC に影響します。 スピーカーやマイクを含めたシステム全体を測定することが重要です。 多くの音声 UI 製品に使用されている筐体では、スピーカーからマイクに音が直接渡されるため、スピーカーの音響出力を測定するだけでは不十分です。 次のページの図 7 に示す図を検討してください。 このグラフは、外部リファレンス マイクを使用して測定されたスピーカーの THD を示しています。 各行は異なる再生レベルを表します。 再生レベルごとに、オーディオスペクトル全体の複数の周波数で測定された SPL と THD が記録されます。 グラフ上の丸いバブルは、測定された THD が 3% を超える THD レベルでのみ発生することを示しています。 スピーカーは直線的に動作し、高周波数でのみ大きく歪みます。 図 7: 外部マイクを使用してスピーカーの歪みを測定します。 スピーカーはリニアで、高 SPL でのみ歪みます。 この測定アプローチは現在、音声 UI を備えた一般的な「スマート スピーカー」のハウジング上部にあるオンボード音声受信マイクを使用して繰り返されています。 この場合、図 8 に示すように、500 ~ 800 Hz の範囲と 500 ~ 800 Hz のマイクロフォンの組み合わせは受け入れられません。剛性を高め、遮音性を高めるために設計を再設計する必要があります。 図 8: 製品の独自のマイクで測定した同じスピーカーの歪みは、500 Hz から 800 Hz の間で音が歪んでいることを示しています。 ビームフォーミング 音声 UI システムでマルチマイク アレイがよく使用される理由は、複数のマイクを使用することでアレイが指向性を持つようになり、特定の方向から来る音に集中できるようになるためです。 このプロセスは成形と呼ばれます。 他の方向からの音を遮断しながらユーザーの音声を分離し、SNR を向上させます。 たとえば、ユーザーがマイク アレイの片側にいて、反対側にエアコンがある場合、エアコンの音は最初にユーザーの反対側にあるマイクに届き、次にユーザーに最も近いマイクに届きます。 アルゴリズムはこれらの時間差を利用して、ユーザーの声を保持しながらエアコンの音を除去します。 アレイ内のマイクの数が多いほど、ビームフォーミングの効率が向上します。 2 つのマイクを備えたアレイでは音をキャンセルする能力が限られていますが、複数のマイクを備えたアレイではより多くの方向から来る音をキャンセルできます。マイクの数が少ないと、パフォーマンスは視野角、つまりユーザーの音声と音声 UI 製品の間の角度によって変化します。 SNR は、ビーム アルゴリズムを形成するためにパフォーマンスを動的に調整することで最適化できます。 ビーム幅を狭くすることで、ユーザーの音声に焦点を合わせ、他の方向からの音をより効果的に拒否することができますが、音声 UI システムはビームがユーザーの中心に来るように評価、調整し、確実にする必要があります。 この取り組みにより、システムに対する要求が高まり、ほとんどのビームがかなり広いビームを維持するようになります。 たとえば、典型的な 7 つのマイクのアレイでは、DOA に対するビーム幅は約 60 度になります。 図 9 は、ビームフォーミングによるバックグラウンドノイズの除去能力を示しています。 マイクのスペクトルは上に示されています。 下の数字は7マイク出力です。 水平の縞模様は音声信号に関連する高調波であり、背景のオレンジ色/赤色は大きなノイズです。 望ましい結果は、暗い領域に囲まれた縞模様になります。 フロントビームの測定では、音声は保持され、背景ノイズは 6 ~ 7 デシベル減少しました。これにより、音声認識が著しく向上します。 図 9: 背景ノイズを低減するためのビームフォーマーの実装。暗い部分は信号レベルが低いことを表します。 ノイズ低減 マイクロフォン アレイ システムは指向性ピックアップ パターンを使用して不要な音 (ノイズなど) を除去しますが、一部の不要な音は、目的の信号から不要な音を分離する特性を識別して不要な音を除去するアルゴリズムによって減衰または除去することもできます。 ノイズ低減アルゴリズムは、単一のマイクまたはアレイで実行でき、ウェイクワード認識に役立ち、音声 UI のパフォーマンスを向上させます。 したがって、ノイズ低減は、音声 UI 信号処理チェーンの複数の段階で使用できます。 音声コマンドは一時的なイベントであり、定常状態ではありません。 既存の音や繰り返し発生する音は、マイクロフォン アレイから発信される信号から検出され、除去されます。 例としては、自動車の道路騒音、家庭内の食器洗い機や HVAC システムからの騒音などが挙げられます。 人間の声のスペクトルより上または下の音もフィルタリングできます。 ノイズ低減アルゴリズムは長年にわたって広く使用されてきましたが、そのほとんどは音声 UI ではなくモバイル アプリケーション向けに最適化されています。 彼らは、音の分離と音声コマンドの理解が最も重要な電子スペクトルではなく、人間の理解にとって最も重要なスペクトルを強調する傾向があります。 携帯電話で使用されるノイズ低減アルゴリズムのほとんどは、実際には音声 UI のパフォーマンスを低下させます。 簡単に言えば、人間の聞き方は音声 UI システムとは違います。 ノイズ低減アルゴリズムがどの程度機能しているかを測定する 1 つの方法は、エコー キャンセラーの出力で提供される追加の信号の数を確認することです。 図 10 は、残留エコーを最大 12dB 削減する周波数領域での DSP ノイズ低減アルゴリズムのパフォーマンスを示しています。 図 10: ノイズ低減アルゴリズムが ERL に与える影響。 曲線が高くなるほど、減衰が大きくなり、効果も向上します。 音質の主観的な改善はすぐに実感できましたが、音声認識アルゴリズムのパフォーマンスは向上したのでしょうか? これを定量化するには追加の測定が必要です。 FIG11 は FIG2 の曲線を再現したもので、ノイズ低減により、元のコンテンツと比較して曲線が 2 dB 左にシフトしています。 実験結果は、このアルゴリズムにより音声認識の全体的なパフォーマンスが向上することを示しています。 図 11: ノイズ低減アルゴリズムが ERL に与える影響。 曲線が高くなるほど、減衰が大きくなり、効果も向上します。 これは音声UIシステムの基本原理の理解です。 さらに、さまざまなマイクアレイ構成やさまざまなマイクの選択の影響を研究することもできます。 これらの効果を検討した後、エンジニアと製品設計チームは、製品のより信頼性の高いパフォーマンスを実現できます。 [この記事は51CTOコラムニスト「老曹」のオリジナル記事です。著者のWeChat公開アカウント:Oh Home ArchiSelf、id:wrieless-com] この著者の他の記事を読むにはここをクリックしてください |
<<: ビッグデータと人工知能のデュアルエンジンが企業のデジタル変革を推進
エッジコンピューティングは最近ホットな話題です。近年最もエキサイティングな技術革新として称賛され、そ...
大規模言語モデル (LLM) は強力なパフォーマンスを備えていますが、既存のモデルのトレーニングと展...
多国籍データ インフラストラクチャ企業である Equinix は、機械学習の確率モデルを使用して潜在...
オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知...
先ほど、グローバル AI 人材レポートが発表されました。世界のトップクラスの AI 人材のうち、約半...
[[220405]]今の時代、就職市場は戦場です。人工知能とロボットの発達は職場に衝撃を与えた。従...
現在の科学技術分野で最もホットな技術の一つとして、人工知能は業界内外の多くの人々の注目を集めています...
最近私の声が盗まれたことで、AI がすでに社会に混乱を引き起こす能力を持っていることが私には明らかに...
[[256247]]アルゴリズムは私たちにどう考えるべきかを教え、それが私たちを変えています。コン...
一見退屈で冷淡なアルゴリズムは、継続的な反復とアップグレードを経て、外界を認識でき、人間の意思決定を...
論文アドレス: https://arxiv.org/abs/2205.15508コードアドレス: h...
1. はじめに - AI トレーニング データに透かしを追加する理由ディープ ニューラル ネットワー...