Ali Sister の紹介: 音声認識技術は人工知能技術の重要な部分として、人間とコンピューターの相互作用に影響を与えるコアコンポーネントの 1 つになっています。さまざまなスマートホーム IoT デバイスの音声対話機能から、公共サービス、スマート政府業務などのアプリケーションまで、音声認識技術は人々の生活のあらゆる側面に影響を与えています。 この記事では、Alibaba Cloud 音声認識技術における重要なモデル側技術を包括的に紹介し、業界の同僚との交流や議論を深めていきたいと考えています。 この記事の著者: ヤン・ジージエ、シュエ・シャオフェイ、チャン・シーリャン、チェン・ハオ、レイ・ミン 音響モデル、言語モデル、デコーダーは、現代の音声認識システムの 3 つの中核コンポーネントとみなすことができます。最近、一部の研究者が End2end 音声認識システムの構築を試みていますが、音響モデル、言語モデル、デコーダーを含む最新の音声認識システムは、依然として最も主流で広く使用されているシステムです。その中で、音響モデルは主に入力音声と出力音響単位間の確率マッピング関係を構築するために使用され、言語モデルは異なる単語間の確率コロケーション関係を記述するために使用され、認識された文章はより自然なテキストに近くなります。デコーダーは、音響単位の確率値と言語モデルの異なるコロケーションのスコアを組み合わせてスクリーニングし、最終的に最も可能性の高い認識結果を取得します。 近年のディープラーニングの普及に伴い、音声認識の分野もディープラーニングの波に巻き込まれています。従来の HMM-GMM 音響モデルを HMM-DNN 音響モデルに置き換えると、相対的に 20% 以上の改善が達成されます。従来の N-Gram 言語モデルに NN-LM 言語モデルを重ね合わせると、さらなる改善が達成されます。 このプロセスにおいて、音響モデルはディープニューラルネットワークモデルに適しているため、研究者からより多くの注目を集めています。この記事では、主にアリババクラウドの音声認識技術で使用されている音響モデル技術と言語モデル技術、つまりLC-BLSTM音響モデル、LFR-DFSMN音響モデル、NN-LM言語モデルについて紹介します。LC-BLSTMは従来のBLSTMモデルを改良したもので、高精度を維持しながら低レイテンシを実現します。DFSMNは非再帰構造の新しいニューラルネットワークで、RNNのように信号の長期相関をモデル化でき、より安定したトレーニング結果とより優れた認識精度を実現できます。 NN-LM 言語モデルは、近年の従来の N-Gram 言語モデルをさらに改良したものです。 遅延制御BLSTMモデル DNN (完全接続型 DNN) モデルの利点は、ニューラル ネットワークの層とノードの数を増やすことで、ネットワークの抽象化と複雑なデータのモデル化の能力が拡張されることです。ただし、DNN モデルにはいくつかの欠点もあります。たとえば、DNN では通常、スプライシングを使用して、コンテキスト関連情報が現在の音声フレームに与える影響を考慮しますが、これは音声シーケンス間の相関関係を反映する最良の方法ではありません。自己回帰ニューラルネットワーク(RNN)は、この問題をある程度解決し、ネットワークノードの自己接続を通じてシーケンスデータ間の相関関係を利用するという目的を達成します。さらに、一部の研究者は、単純な RNN で発生しやすい勾配爆発と勾配消散の問題を効果的に緩和できる長短期記憶ネットワーク (LSTM-RNN) を提案しました。その後、研究者は LSTM を拡張し、双方向長短期記憶ネットワーク (BLSTM-RNN) を使用して音響モデルをモデル化し、コンテキスト情報の影響を十分に考慮しました。 BLSTM モデルは音声認識の精度を効果的に向上させることができます。DNN モデルと比較すると、相対的なパフォーマンスの向上は 15% ~ 20% に達します。しかし同時に、BLSTM モデルには 2 つの非常に重要な問題もあります。
これら 2 つの問題に対して、学術界はまず Context-Sensitive-Chunk BLSTM (CSC-BLSTM) 方式を提案し、その後、これら 2 つの問題をより良く、より効率的に軽減する改良版の Latency Controlled BLSTM (LC-BLSTM) を提案しました。これを基に、マルチマシンマルチカード、16ビット量子化などのトレーニングおよび最適化手法を備えたLC-BLSTM-DNNハイブリッド構造を使用して音響モデルを構築し、DNNモデルと比較して約17〜24%の相対認識エラー率の削減を達成しました。 一般的な LSTM ノード構造は、入力ゲート、忘却ゲート、出力ゲート、セルの 3 つのゲートで構成されます。入力ノードと出力ノード、セル、各ゲートの間には接続があり、入力ゲートと忘却ゲートとセルの間にも接続があり、セル内には自己接続があります。このように、さまざまなゲートの状態を制御することで、長期および短期の情報保存とエラー伝播を向上させることができます。 LSTM はレイヤーごとに積み重ねて、DNN のような DeepLSTM になります。コンテキスト情報をより有効に活用するために、BLSTM をレイヤーごとに積み重ねて Deep BLSTM を構築することもできます。その構造を下図に示します。ネットワークには時間軸に沿って順方向と逆方向の 2 つの情報伝達プロセスがあります。各時間フレームの計算は、以前のすべての時間フレームと後続のすべての時間フレームの計算結果に依存します。音声信号などの時系列の場合、このモデルは現在の音声フレームに対するコンテキストの影響を十分に考慮しているため、音素状態の分類精度を大幅に向上できます。 しかし、標準の BLSTM は音声データの全文をモデル化するため、トレーニングとデコード処理では、収束が遅い、レイテンシが高い、リアルタイム率が低いなどの問題があります。これらの欠点に対処するために、Latency Controlled BLSTM を使用して解決しました。トレーニングとデコードに全文を使用する標準の BLSTM とは異なり、Latency Control BLSTM は Truncated BPTT に似た更新方法を使用し、セル中間状態の処理とデータの使用に独自の特徴があります。次の図に示すように、トレーニング中は毎回小さなデータを使用して更新します。データは中央のチャンクと右に追加されたチャンクで構成されます。右に追加されたチャンクはセル中間状態の計算にのみ使用され、エラーは中央のチャンクにのみ伝播します。 タイムライン上を前進するネットワークの場合、前のデータ セグメントの中央チャンクの終わりにあるセルの中間状態が、次のデータ セグメントの初期状態として使用されます。タイムライン上を後進するネットワークの場合、各データ セグメントの開始時にセルの中間状態が 0 に設定されます。この方法により、ネットワークの収束が大幅に高速化され、パフォーマンスが向上します。デコード フェーズでのデータ処理は、基本的にトレーニング フェーズと同じですが、中央チャンクと右追加チャンクの寸法は必要に応じて調整でき、必ずしもトレーニング フェーズと同じように構成する必要はありません。 LFR-DFSMNモデル FSMN は、フィードフォワード完全接続ニューラル ネットワーク (FNN) の隠れ層にいくつかの学習可能なメモリ モジュールを追加することで、信号の長期相関を効果的にモデル化する、最近提案されたネットワーク構造です。 LCBLSTM と比較して、FSMN はレイテンシをより便利に制御できるだけでなく、多くの場合、より優れたパフォーマンスを実現し、必要なコンピューティング リソースが少なくなります。しかし、標準的な FSMN では非常に深い構造をトレーニングすることは難しく、勾配消失問題のためにトレーニング効果は低くなります。深い構造を持つモデルは、多くの分野でより強力なモデリング機能を持つことが証明されています。そこで、Deep FSMN (DFSMN) と呼ばれる改良された FSMN モデルを提案します。 さらに、低フレームレート(LFR)技術を組み合わせて、効率的なリアルタイム音声認識音響モデルを構築しました。昨年発表したLFR-LCBLSTM音響モデルと比較すると、20%以上の相対パフォーマンス向上を実現し、トレーニングとデコードの加速が2〜3倍になり、システムの実際のアプリケーションに必要なコンピューティングリソースを大幅に削減できます。 最初に提案された FSMN のモデル構造は、上の図 (a) に示されています。これは本質的には、フィードフォワード型の完全接続ニューラル ネットワークです。ネットワークのいくつかの隠し層の隣にメモリ ブロックを追加して、現在の瞬間のコンテキスト情報をモデル化することで、モデルは時系列信号の長期的な相関関係をモデル化できます。メモリモジュールは、上図(b)に示すようなタップ遅延構造を使用して、現在の瞬間と前のN個の瞬間の隠れ層出力を係数セットを介してエンコードし、固定式を取得します。 FSMN の提案は、デジタル信号処理におけるフィルタ設計理論にヒントを得たものです。つまり、任意の無限インパルス応答 (IIR) フィルタは、高次有限インパルス応答 (FIR) フィルタで近似できます。 フィルタの観点から見ると、図(c)に示すRNNモデルの再帰層は、図(d)に示すように1次IIRフィルタとみなすことができます。上図(b)に示すようにFSMNが使用するメモリモジュールは、高次FIRフィルタとみなすことができます。したがって、FSMN は RNN と同様に信号の長期相関を効果的にモデル化することもできます。同時に、FIR フィルターは IIR フィルターよりも安定しているため、FSMN は RNN よりもトレーニングが簡単で安定しています。 メモリモジュールのエンコード係数の選択に応じて、次のように分類できます。
名前が示すように、sFSMN と vFSMN は、メモリ モジュールのエンコード係数としてそれぞれスカラーとベクトルを使用します。 上記の FSMN は、履歴情報が現在の瞬間に与える影響のみを考慮しており、一方向の FSMN と言えます。過去の情報と将来の情報が現在の瞬間に与える影響を考慮すると、単方向 FSMN を拡張して双方向 FSMN を取得できます。 FNN と比較すると、FSMN ではメモリ モジュールの出力を次の隠し層への追加入力として使用する必要があり、これにより追加のモデル パラメータが導入されます。隠し層に含まれるノードの数が増えるほど、導入されるパラメータの数も増えます。この研究では、低ランク行列分解のアイデアを組み合わせ、コンパクト FSMN (cFSMN) と呼ばれる改良された FSMN 構造を提案しています。次の図は、l 番目の隠れ層にメモリ モジュールが含まれる cFSMN の構造ブロック図です。 cFSMN では、ネットワークの隠れ層の後に低次元の線形投影層が追加され、線形投影層にメモリ モジュールが追加されます。さらに、cFSMN ではメモリ モジュールのエンコード式にいくつかの変更が加えられ、現時点での出力をメモリ モジュールの式に明示的に追加することで、次のレイヤーの入力としてメモリ モジュールの式のみを使用すればよいようになりました。これにより、モデルパラメータの数を効果的に削減し、ネットワークのトレーニングを高速化できます。 上図は、私たちがさらに提案したDeep-FSMN(DFSMN)のネットワーク構造ブロック図です。左側の最初のボックスは入力層を表し、右側の最後のボックスは出力層を表します。 cFSMN のメモリ モジュール (赤いボックスで示されています) 間にスキップ接続を追加して、下位レベルのメモリ モジュールの出力を上位レベルのメモリ モジュールに直接蓄積できるようにします。このように、トレーニングプロセス中に、高レベルメモリモジュールの勾配が低レベルメモリモジュールに直接割り当てられるため、ネットワークの深さによって発生する勾配消失の問題を克服し、安定したディープネットワークのトレーニングが可能になります。 以前の cFSMN と比較して、DFSMN の利点は、ジャンプ接続を通じて非常に深いネットワークをトレーニングできることです。オリジナルの cFSMN では、各隠れ層が行列の低ランク分解によって 2 層構造に分割されているため、4 つの cFSMN 層と 2 つの DNN 層を含むネットワークの場合、層の総数は 13 に達します。したがって、cFSMN 層をさらに使用すると、層の数が増加し、トレーニング中に勾配消失問題が発生し、トレーニングが不安定になります。 私たちが提案した DFSMN は、スキップ接続を通じて深層ネットワークの勾配消失問題を回避し、深層ネットワークのトレーニングを安定させます。ここでのジャンプ接続は、隣接するレイヤー間だけでなく、隣接しないレイヤー間にも追加できることに注意してください。ジャンプ接続自体は線形変換または非線形変換になります。具体的な実験では、数十層の DFSMN ネットワークをトレーニングし、cFSMN と比較して大幅なパフォーマンスの向上を実現できます。 元の FSMN から cFSMN への移行により、モデルのパラメータを効果的に削減できるだけでなく、パフォーマンスも向上します。さらに、cFSMN に基づいて、モデルのパフォーマンスを大幅に向上できる DFSMN を提案しました。次の表は、2000 時間の英語タスクにおける BLSTM、cFSMN、および DFSMN に基づく音響モデルのパフォーマンスを比較したものです。
上記の表からわかるように、2000 時間のようなタスクでは、DFSMN モデルは BLSTM 音響モデルと比較してエラー率を 14% 削減でき、音響モデルのパフォーマンスが大幅に向上します。 従来の音響モデルは、音声信号の各フレームから抽出された音響特徴を入力します。音声の各フレームの持続時間は通常 10 ミリ秒で、入力された音声フレーム信号ごとに対応する出力ターゲットがあります。最近、ある研究では、低フレーム レート (LFR) モデリング スキームが提案されました。これは、隣接する瞬間の音声フレームを入力としてまとめることで、これらの音声フレームのターゲット出力が予測され、平均出力ターゲットが得られるというものです。特定の実験では、モデルのパフォーマンスを損なうことなく、3 つのフレーム (またはそれ以上のフレーム) を結合できます。 これにより、入力と出力を元の量の 3 分の 1 以上に削減できるため、音声認識システムに提供する際の音響スコアの計算とデコードの効率が大幅に向上します。上記で提案したDFSMNとLFRを組み合わせて、LFR-DFSMNに基づく音声認識音響モデルを構築しました。複数の実験を経て、最終的に音響モデルとして10個のcFSMN層+2個のDNN層からなるDFSMNを使用することにしました。入力と出力にはLFRを使用し、フレームレートを元の3分の1に削減しました。認識結果は、昨年開始した最高の LCBLSTM ベースラインと比較され、次の表に示されています。 LFR技術を組み合わせることで、3倍の認識高速化を実現できます。上記の表からわかるように、実際の産業規模のアプリケーションでは、LFR-DFSMN モデルは LFR-LCBLSTM モデルと比較してエラー率を 20% 削減でき、大規模データに対するモデリング特性が優れていることがわかります。 NN-LM 言語モデル 言語モデルは、その名前が示すように、言語をモデル化するモデルです。言語表現は文字列の集まりとみなすことができます。文字列の異なる組み合わせは異なる意味を表します。文字の単位は単語または句です。言語モデルのタスクは、与えられた文字列の確率をどのように推定するか、またはその文字列の合理性をどのように推定するかと考えることができます。 P (上海の労働者は力がある) > P (上海の労働者は力がある) この文を例に挙げてみましょう。たとえば、「労働者と主人は権力を持つ」と「腐敗物を食べる労働者は権力を持つ」のどちらの文がより「適切」でしょうか。左側の文の方が可能性が高いと判断するのは簡単です。したがって、言語モデルを通じて、人間の期待に応える確率分布を与えることができると期待しています。この文のように、「労働者が主人である」確率は、「労働者が腐った食人である」確率よりも大きいのです。 統計的な単語頻度に基づく従来の N-gram 文法モデルは、マルコフ仮定を通じてモデル構造と計算を簡素化し、カウントによって計算され、検索によって使用されます。簡単な推定、安定した性能、高速計算などの利点があり、30年以上の使用実績があります。しかし、マルコフ仮定によりモデリングの長さが強制的に切り捨てられるため、モデルがより長い履歴をモデリングすることは不可能になります。また、頻度ベースの推定方法ではモデルの滑らかさが低下し、低頻度の単語が過小評価されます。ニューラル ネットワーク (NN) の第 3 次台頭により、NN を使用して言語モデルを構築しようとする人が出始めました。 典型的なモデリング構造はリカレントニューラルネットワーク (RNN) です。その再帰構造により、理論的には無限長のシーケンスをモデリングできるため、シーケンス長のモデリングにおける N グラム文法の欠点を補うことができます。同時に、レイヤー間の全方向接続により、スムーズなモデリングも保証されます。さらに、モデルの性能を向上させるために、研究者らは、Long Short-Term Memory (LSTM)構造を通じて基本的なRNN自体の不十分なモデリング能力を改善し、モデル性能をさらに向上させることも試みました。 NN を大規模な言語モデリング システムで使用する場合、語彙の増加によるストレージと計算量の増加など、いくつかの問題に直面する必要があります。実際のオンライン システムの語彙は膨大であることが多く、語彙が増えるにつれて、基本的な RNN 構造のストレージと計算の複雑さが指数関数的に増大します。 この目的のために、研究者たちはいくつかの試みを行ってきましたが、辞書のサイズを圧縮することが最も直接的な解決策となりました。古典的な方法は語彙のクラスタリングです。この方法では語彙のサイズを大幅に圧縮できますが、パフォーマンスが低下することがよくあります。より直接的なアイデアは、低頻度の単語を直接フィルタリングすることですが、それでも一定のパフォーマンスの低下につながります。これに基づいて、改善戦略があります。出力層ノードが速度パフォーマンスの実際の制約であることがわかりました。入力層ノードは大きく、投影層の助けを借りてうまく解決できます。したがって、入力層では大きな辞書を使用し、出力層の語彙のみを抑制します。これにより、損失が可能な限り削減されるだけでなく、頻度が低すぎる単語もフィルタリングされるため、モデルノードの完全なトレーニングにも役立ち、パフォーマンスがわずかに向上することがよくあります。 語彙の圧縮によりモデリング性能が向上し、計算量やストレージ量を削減できますが、一定のレベルに制限があり、無制限に圧縮することはできません。計算量をさらに削減する方法が問題として残ります。いくつかの方法が提案されています。たとえば、LightRNN はクラスタリングに似た方法で埋め込みの考え方を使用して、語彙を実数値の行列にマッピングします。実際の出力には行列の行と列の追加のみが必要であり、計算量はほぼ 2 乗で済みます。ノード数が多いことに加え、計算量が多くなるもう 1 つの理由は、すべてのノードの合計を計算してから分母を取得する必要があるソフトマックス出力です。分母を一定に保つことができれば、実際の計算中に必要なノードのみがカウントされ、テスト段階での計算速度が大幅に向上します。 そのため、正規化項に関連する方法である分散正規化があります。トレーニング速度が許容できる場合、この方法はモデルの正確性を失うことなく、順方向の計算速度を大幅に向上させることができます。トレーニングを高速化したい場合は、NCE、重要度サンプリング、ブラックサンプリングなどのサンプリングベースの方法も検討できます。本質的には、トレーニング中にすべてのノードが計算されるのではなく、特定の分布を通じてサンプリングされた正のサンプル(つまり、ラベルが1のノード)と一部の負のサンプルのみが計算され、高出力による計算速度の低下が回避されることを意味します。速度の向上は依然として非常に明白です。 Alibaba Cloudから開発者モデルのカスタマイズ機能を取得する スマートフォンの顧客サービスやスマート会議システムに取り組んでいて、システムに音声認識 (音声をテキストに書き起こす) 機能を追加する必要がある開発者を想像してください。彼の前には、こんな恥ずかしい状況が広がっている。 1 つの選択肢は、音声認識をゼロから自分で学ぶことですが、これには多くの時間と費用がかかります。結局のところ、人工知能のようなものには、大手インターネット企業が多くの人的資源、物的資源、資金を投入しており、技術を蓄積するには長い時間がかかります。 2 番目のオプションは、インターネット上の上記の大手企業が提供する、すぐに使える万能の音声認識インターフェースを使用することです。これにより時間は節約できますが、音声からテキストへの変換の精度は運次第です。結局のところ、大手企業も非常に忙しく、ユーザーが関心を持つシナリオを最適化する余裕はありません。 そこで疑問になるのが、最小限の投資で最高のビジネスクラスの音声認識結果を達成する方法はあるかということです。答えはイエスです。 Alibaba Cloudは、DAMO Academyの業界をリードする音声インタラクションインテリジェンスを活用して、従来の音声技術プロバイダーの供給モデルを打ち破りました。クラウドコンピューティングの時代では、一般の開発者も、Alibaba Cloudが提供する音声認識クラウドベースの自己学習技術を通じて、関心のあるビジネスシナリオをカスタマイズおよび最適化するための一連の手段を手に入れることができます。 Alibaba Cloud を利用することで、開発者は巨人の肩の上に立ち、自律的で制御可能な自己学習を通じて、短期間で音声認識システム アプリケーションのエントリーレベルから習得レベルへの移行を実現し、開発者が重視するシナリオで業界トップの音声認識精度を簡単に達成できます。これはクラウドコンピューティング時代の音声認識技術の新たな供給モデルです。 他の人工知能技術と同様に、音声認識技術の鍵は、アルゴリズム、計算能力、データという 3 つの側面にあります。 Alibaba Cloudは、DAMOアカデミーの音声インタラクションインテリジェンスを頼りに、近年、世界の最先端で「アルゴリズム」を進化させ続けています。最近では、最新の研究成果であるDFSMN音響モデルもオープンソース化し、世界中の研究者が現在の最良の結果を再現し、継続的に改善できるようにしています。 言うまでもなく、コンピューティング能力はクラウド コンピューティングの本来の強みです。 Alibaba Cloud ODPS-PAI プラットフォームをベースに、音声認識アプリケーションに最適化された CPU/GPU/FPGA/NPU トレーニングおよびサービスのハイブリッド プラットフォームを構築し、Alibaba Cloud 上で毎日大量の音声認識リクエストに応えています。 「データ」に関しては、電子商取引、顧客サービス、政府関係、携帯電話入力など、膨大なデータでトレーニングされたすぐに使用できるシナリオモデルを提供します。 同時に、特定の実装シナリオでは、多くの場合、非常に特殊で現場に関連する「ステートメント」を識別する必要があることに注意する必要があります。多くの場合、「砕屑岩の岩相」や「海洋炭酸塩岩」などの特定のステートメントは、一般的なシナリオモデルの認識率に課題をもたらします。開発者が重視する特定のシナリオで最高の精度を実現するには、通常、すぐに使用できるモデルでは、特定のカスタマイズと最適化の作業が必要になります。従来、このようなカスタマイズは音声技術サービスプロバイダーを通じて行われていましたが、コスト、サイクル、制御性などの点で明らかな欠点がありました。 Alibaba Cloud が提供する音声カスタマイズ「自己学習」プラットフォーム サービスは、開発者がモデルのカスタマイズ、最適化、オンライン起動を非常に短時間かつ低コストで完全に制御できるようにするさまざまな手段を提供できます。強力なインフラストラクチャを基盤とする Alibaba Cloud の革新的なツール プラットフォームとサービス テクノロジーにより、クラウド コンピューティングのコンテキストで大規模にカスタマイズされた音声サービスを提供することができます。開発者はバックエンドの技術やサービスについて心配する必要はなく、Alibaba Cloud が提供するシンプルで使いやすい「自己学習」ツールを使用し、シナリオの知識とデータを活用して特定のシナリオで最適な効果を得て、必要に応じて継続的に反復して改善するだけです。 Alibaba Cloud のインテリジェント音声自己学習プラットフォームには、次のような利点があります。
たとえば、開発者は次の自己学習方法を使用して、関心のある分野のモデルをカスタマイズできます。 a) ビジネスホットワードのカスタマイズ 多くの特定の場所では、特定の単語の認識能力を迅速に高める必要があります(注:2つのモードがあり、モード1は他の単語が特定の単語として簡単に認識されるモード、モード2は特定の単語が他の単語として簡単に認識されるモードです)。リアルタイムホットワードロードテクノロジーを使用すると、リアルタイムのシナリオでさまざまなギアを設定することで、ホットワードの認識能力を高めることができます。 b) ホットワードのカスタマイズ 多くの場合、同じ発音と同じ属性でも、コンテキストによって異なる認識効果が必要になることがあります。連絡先や地名は典型的な例です。「張楊」と「張楊」など、異なる人の友人の場合、対応する名前を正確に識別できなければなりません。同様に、数千マイル離れた安渓と安渓を誤って識別すると、航行に大きな支障が生じます。インテリジェントな音声自己学習プラットフォームは、「誰もが尊重されるに値する」と信じており、人間と地名を結び付けるカスタマイズされた機能を提供し、「世界中のあらゆる道路を簡単に認識できるようにする」。 c) ビジネス固有のモデルのカスタマイズ 業界や会社の基本紹介、カスタマーサービスのチャット記録、その分野でよく使われる語彙や固有名詞など、該当分野の関連テキストを入力することで、ユーザーは業界向けにカスタマイズされたモデルを素早く生成できます。カスタマイズプロセス全体において、ユーザーによる手動介入は必要ありません。 これらの手段を通じて、Alibaba Cloud は、開発者が音声技術のアルゴリズムやエンジニアリング サービスの詳細を心配する必要がなく、得意とする垂直分野の知識とデータ収集に集中できるようにし、音声技術の新しいクラウドベースの供給モデルを実現し、多数の開発者とそのビジネス成果に利益をもたらします。 |
<<: プログラミング啓蒙ロボット、本物の人形か、それとも本当の物語か?
>>: マイクロソフトCEOナデラ氏:顔認識技術は社会に有害
[[236693]]ビッグデータダイジェスト制作翻訳者:張秋月、郝貴儿、倪倩、飛、ヴァージル、銭天...
[[402276]]人工知能の発展の歴史の中で、さまざまなアルゴリズムが際限なく登場してきました。...
ドローンについては皆さんもよくご存知だと思います。近年、無人運用の需要が継続的に高まり、さまざまな最...
人工知能 (AI) は建物の避けられない未来ですが、過去 10 年間のスマート テクノロジーの採用と...
著者についてCtrip の自然言語処理と大規模言語モデル アルゴリズムの専門家である Terry は...
現実の世界には、本質的に統計的であると考えられる現象がいくつかあります (気象データ、売上データ、財...
アリババのナレッジグラフの助けにより、アリババの電子商取引プラットフォームの管理と制御は、以前の「巡...
01 用語このセクションでは、機械学習の概要とその 3 つの分類 (教師あり学習、教師なし学習、強化...
写真ビデオセグメンテーションは多くのシナリオで広く使用されています。映画の視覚効果を高めたり、自動運...
Facebookは、独自のARグラスを開発するためにRay-Banと提携するなど、拡張現実技術に多大...
[[214658]] 2週間後、2018 CESがラスベガスで開幕します。今年と同様に、CES 20...
Transformerモデルは2017年の誕生以来、自然言語処理やコンピュータービジョンなど多くの分...