Meituan はどのようにしてディープラーニングに基づくインテリジェントな画像レビューを実現するのでしょうか?

Meituan はどのようにしてディープラーニングに基づくインテリジェントな画像レビューを実現するのでしょうか?

はじめに:AI(人工知能)技術は、Meituan AppからDianping App、フードデリバリーからタクシー旅行、旅行から結婚式や親子活動まで、Meituanの多くの事業で広く使用されています。Meituanの最高のアルゴリズムエンジニア数百人が、AI技術を検索、推奨、広告、リスク管理、インテリジェントスケジューリング、音声認識、ロボット、無人配達などの分野に応用することに尽力しており、Meituanの数億人の消費者と数百万の商人のサービスと体験を向上させ、誰もがより良く食べて、より良く暮らすのを支援しています。

美団はAI技術を基盤として、世界最大かつ最も複雑な多人数、多地点のリアルタイムインテリジェント配送・配車システムを構築しました。また、AI技術を基盤として、業界初の大規模エンタープライズアプリケーションレベルの音声インタラクション製品を発売し、50万人の乗客にインテリジェント音声システムを装備しました。さらに、AI技術を基盤として、世界最大の食品知識ベースを構築し、200万以上の商店と3億以上の商品のナレッジグラフを描き、数億人のユーザーに正確なユーザーポートレートを提供し、世界最大かつ最も複雑なO2Oインテリジェントレコメンデーションプラットフォームを構築しました。

世界最大の生活サービス向けインターネットプラットフォーム「Meituan」の「頭脳」はどのように構築されているのか?インターネット機械学習の実践を包括的に解説した業界初の書籍「Meituan Machine Learning Practice」がまもなく発売されます。どうぞお楽しみに。この記事は、同書籍の第 15 章から抜粋したものです。

背景

Meituan では毎日何百万枚もの写真が生成されます。運営担当者は関連する写真の内容を審査し、法的リスクを伴う写真やプラットフォームの規制に準拠していない写真を削除する責任があります。画像数が膨大であるため、手動でのレビューには時間と労力がかかり、レビュー能力にも限界があります。さらに、異なる監査人が監査基準を統一し、リアルタイムに変更することは困難です。したがって、インテリジェントな監査を実現するには機械を使用する必要があります。

インテリジェント画像レビューとは、一般的に、画像処理や機械学習関連の技術を使用して画像の内容を識別し、その画像が違法かどうかを判断することを指します。インテリジェント画像レビューは、機械が規則に準拠していない画像の種類(否定例)を自動的に禁止し、規則に準拠している画像の種類(肯定例)を自動的に通過させる、自動画像レビューサービスの確立を目指しています。機械が確信を持てない画像は、手動レビューに送られます。したがって、インテリジェント監査システムのパフォーマンスを測定する指標は、主に精度と自動化率です。

自動レビューの通常の考え方は、規制に準拠していない画像の種類(透かし入り画像、ポルノ画像、暴力やテロリストの画像、有名人の顔、広告画像など)を網羅的に列挙し、残りの画像を自動的に肯定的な例として通過させることです。これの問題点は、新しい違法コンテンツを処理するのに十分な拡張性がなく、自動フィルタリングを有効にするにはすべてのモデルが構築されるまで待つ必要があることです。自動承認の要件を満たす画像(通常の人物画像、一貫したシーンの画像など)を積極的にマイニングし、肯定的な例のフィルタリングと否定的な例のフィルタリングを組み合わせることができれば、手動によるレビューをより迅速に省くことができます。そのため、当社のインテリジェント画像レビューシステムは、否定例フィルタリングモジュールと肯定例フィルタリングモジュールに分かれています。レビュー対象の画像は、まず否定例フィルタリングモジュールに入り、禁止されているかどうかが判断され、次に肯定例フィルタリングモジュールに入り、自動承認されます。機械が判断できない残りの画像は、手動レビューに送られます。全体的な技術的ソリューションを図 1 に示します。

図1 画像インテリジェントレビュー技術ソリューション

負の例のフィルタリング モジュールと正の例のフィルタリング モジュールの両方に、検出、分類、認識のテクノロジが含まれており、この分野ではディープラーニングが推奨されるテクノロジです。以下では、透かしフィルタリング、有名人の顔認識、ポルノ画像の検出、シーン分類を通じて、画像インテリジェントレビューにおけるディープラーニングの応用について紹介します。

ディープラーニングに基づく透かし検出

著作権を保護し、オリジナルコンテンツをサポートするためには、販売者またはユーザーがアップロードした画像に禁止されている透かし(競合他社の透かし、他の製品のロゴ)が含まれているかどうかを自動的に検出する必要があります。他の固定オブジェクトとは異なり、透かしには次の特性があります。

  • さまざまなスタイル。オフラインコレクションに含まれる主流の禁止透かしは 20 種類以上あり、透かしの種類ごとに複数のスタイルがあります。さらに、オンライン上には未知の種類の透かしが多数存在します。
  • 主題は変更可能です。透かしは画像内の固定位置に配置されておらず、比較的小さいです。図2に示すように、被写体は切り取られて変形しており、複数の被写体が重なり合っています(複数の透かし)。

図2: 対象は変更可能

  • 背景は複雑です。主流の透かしのほとんどは透明または半透明であるため、図 3 に示すように、透かし内のテキスト ロゴは複雑な背景によって簡単に乱れてしまいます。

図3 複雑な背景

従来の透かし検出では、スライディング ウィンドウ方式を使用して固定サイズの画像ブロックを抽出し、それを事前トレーニング済みの識別モデルに入力して、ブロックのカテゴリを取得します。画像内のすべての候補位置を走査することで、画像の密なカテゴリ スコア マップを取得できます。一定の閾値を超えるスコアを持つブロックは透かし候補領域とみなされ、非最大抑制を通じて最終結果を得ることができます。

識別モデルの特徴は、テキスト認識の分野で一般的に使用されるエッジ方向の統計的特徴を採用することも、CNN を通じて学習して、切断、変形、複雑な背景に対する堅牢性を向上させることもできます。スコアの信頼性をさらに向上させるために、タイププロトタイプ情報を追加し、入力画像ブロック特徴とクラスター中心特徴間の類似度(角度のコサイン)を認識信頼性として使用することができます。しかし、上記の方法の検出効率は極めて低く、透かしの位置とサイズが固定されていないため、あらゆる位置で複数のスケールの画像を判別する必要があり、冗長なウィンドウが大量に生成されます。

1 つのアイデアは、サブウィンドウ方式を使用してスライディング ウィンドウの数を減らすことです。まず、教師なし学習/教師あり学習によって一連の候補領域が生成され、次に CNN 分類器を使用して、その領域にターゲットが含まれているかどうか、およびターゲットの種類が何であるかが判断されます。このタイプの最も代表的な方法は、R-CNN シリーズです。このタイプの方法で得られた候補ボックスは元の画像解像度にマッピングできるため、ボックスの配置精度は十分に高くなります。

もう 1 つの解決策は、特徴マップ上で直接回帰法を使用することです。 CNN ネットワークの畳み込み層では入力画像のサイズを柔軟にできますが、完全接続層以降では入力サイズを一定に保つ必要があることがわかっています。したがって、任意のサイズの画像を最初の完全接続層まで CNN に入力すると、すべての層の特徴マップを取得するのに必要な順方向操作は 1 回だけです。そして、回帰の対象は検出対象の位置情報とカテゴリ情報であり、対象のサイズに応じて異なるレベルの特徴マップ上で回帰することができます。このタイプの方法は、YoloとSSDによって代表されます。このタイプの方法の特徴は、高い検出精度を確保しながら優れたリアルタイム性能を実現することです。

図 4 は、上記の 2 つのフレームワークと、従来の最良の方法である DPM (Deformable Part Model) のパフォーマンス比較を示しています。

図4 ディープラーニングに基づく主流のターゲット検出手法の性能評価

透かし検出タスクでは、位置決めフレームの高精度は必要なく、1 日あたり数百万枚の画像のスループットを満たす必要があることを考慮して、SSD フレームワークと Resnet ネットワーク構造を借用しました。トレーニングデータに関しては、25のカテゴリで15,000枚の透かし入り画像を手動で収集し、被写体のランダムトリミングや前景と背景の合成などの方法を通じてデータを拡張しました。

トレーニングされたモデルに基づいて、オンライン データに対して関連テストが実行されました。 3197 枚のオンライン画像がテスト セットとしてランダムに選択され、そのうち 2795 枚には透かしが含まれていません。透かしが含まれている 402 枚の画像のうち、302 枚にはトレーニング セットに表示されている透かしが含まれており、残りの 100 枚にはトレーニング セットに表示されていないニッチな透かしが含まれています。このテスト セットに基づいて、従来の方法 (手動で設計された特徴 + スライディング ウィンドウ認識) と SSD フレームワークに基づく方法を評価しました。

図 5 からわかるように、従来の方法と比較すると、SSD フレームワークはリコールと精度の両方で明らかな利点があります。さらに分析を進めたところ、ディープラーニング手法によって 38 個のニッチな透かし入り画像が再現され、CNN によって学習された特徴の一般化能力がより強力であることが示されました。

図5 透かし検出性能評価

有名人の顔認識

著名人の肖像権の侵害を避けるために、レビューのシナリオでは、ユーザー/販売者がアップロードした画像に著名人の肖像が含まれているかどうかを識別する必要があります。これは典型的な顔認識アプリケーションであり、具体的には 1:(N+1) の顔比較です。顔認識プロセス全体には、図 6 に示すように、顔検出、顔キーポイント検出、顔補正と正規化、顔特徴抽出、特徴比較が含まれます。深層畳み込みモデルは、トレーニングされ、特徴抽出に使用される認識モデルです。以下では、顔検出と顔認識の技術ソリューションをそれぞれ紹介します。

図6 有名人の顔認識プロセス

顔検出

顔検出方法は、従来の検出器とディープラーニングベースの検出器の 2 つのカテゴリに分けられます。

従来の検出器は主に VJ フレームワークに基づいており、ブーストされたカスケード構造と人工的な特徴を設計することで検出を実現します。特徴には、Haar 特徴、HOG 特徴、ピクセル比較に基づく特徴 (Pico、NPD) などがあります。

このタイプの検出器は、制約のある環境下では優れた検出結果と実行速度を実現しますが、複雑なシーン (照明、表情、オクルージョン) の場合、手動で設計された機能によって検出能力が大幅に低下します。性能向上のため、関連研究では顔検出と顔キーポイント位置特定という2つのタスクを結合したジョイント最適化(JDA)を行い、キーポイント検出を顔検出の重要な評価基準としているが、その精度をさらに向上させる必要がある。

ディープラーニング検出器には 3 つのアプローチがあります。

  • 最初のカテゴリでは、VJ フレームワークを使用しますが、従来の機能をカスケード CNN ネットワークに置き換えます。
  • 2 番目のカテゴリは、候補領域と境界ボックス回帰に基づくフレームワーク (Faster R-CNN など) です。
  • 3 番目のカテゴリは、完全な畳み込みネットワークの直接回帰に基づくフレームワーク (DenseBox など) です。

Faster R-CNNフレームワークを採用し、判別困難なネガティブサンプルマイニング(彫像、肖像画、動物の頭などのネガティブサンプルの抑制)、多層特徴融合、マルチスケールトレーニングとテスト、コンテキスト情報融合などの面で改善を行い、複雑な背景、人間のような顔、遮蔽などによる干渉に耐性を高め、小さな顔や横顔の検出率を効果的に向上させました。

顔認識

顔認識には主に 2 つのアプローチがあります。 1 つは、各カテゴリが人物の複数の写真に対応する画像分類タスクに直接変換することです。代表的な方法としては、DeepFace や DeepID などがあります。もう1つの方法は、認識をメトリック学習の問題に変換する方法です。特徴学習により、同じ人物の異なる写真はより近づけ、異なる人物の写真はより遠ざけます。代表的な方法としては、DeepID2やFaceNetなどがあります。

タスクで識別される ID は半閉じたセットであるため、モデル トレーニングに画像分類とメトリック学習のアイデアを統合できます。トリプレット損失は負の例のマイニング アルゴリズムに対して高い要件があり、実際のトレーニングでは非常にゆっくりと収束することを考慮して、クラス内分散を最小限に抑えるためにセンター損失を使用し、クラス間分散を最大化するためにソフトマックス損失と組み合わせます。これら 2 つの損失関数のバランスをとるには、実験を通じてハイパーパラメータを選択する必要があります。私たちが使用するネットワーク構造は Inception-v3 であり、実際のトレーニングでは 2 つの段階に分かれています。

  • 最初の段階では、Softmax Loss+C×Center Lossが使用され、公開データセットCASIA-WebFace(10,575 IDと490,000の顔画像を含む)を使用してネットワークパラメータを初期化し、ハイパーパラメータCを最適化します。実験結果によると、C = 0.01です。
  • 第2段階では、Softmax Loss+0.01×Center Lossを使用し、ビジネスデータ(有名人の顔ID 5,200件と顔画像100万枚)でネットワークパラメータを微調整します。

パフォーマンスをさらに向上させるために、図 7 に示すように、Baidu が採用しているマルチモデル統合戦略を活用します。具体的には、顔のキーポイントの位置に応じて顔領域を複数の領域に分割し、領域ごとに特徴モデルを個別にトレーニングします。現在、顔領域は 9 つの領域に分割されており、顔全体の領域を加えた合計 10 個のモデルをトレーニングする必要があります。

図7 アンサンブル学習に基づく顔認識

テストフェーズでは、検証対象の顔領域と候補顔領域について、図7に示す10個の領域に基づいて特徴が抽出される。次に、各領域について、2 つの特徴ベクトル間の類似度 (コサイン距離) が計算されます。最後に、類似度加重法を使用して、2 つの顔が同一人物のものであるかどうかを判断します。表1は、LFWデータセットにおける主流の手法の評価結果を示しています。 Meituan モデルは、比較的限られたデータで高い精度を達成していることがわかります。

表1 公開データセットの評価結果

ポルノ画像の検出

ポルノ画像の検出は、インテリジェントな画像レビューの重要な部分です。従来の検出方法では、肌の色や姿勢などの寸法に基づいて画像のコンプライアンスを識別します。ディープラーニングの進歩により、既存の Yahoo NSFW (職場閲覧禁止) モデルは、ポルノ画像の検出をバイナリ分類問題 (ポルノ、通常) として直接定義し、畳み込みニューラル ネットワークを通じて大量のデータに対してエンドツーエンドのトレーニングを実行します。

トレーニングされたモデルでは、異なるレイヤーが異なる特徴を学習します。一部のレイヤーは肌の色の特徴を学習し、他のレイヤーは部位の輪郭の特徴を学習し、他のレイヤーは姿勢の特徴を学習します。しかし、人間はポルノを非常に幅広く定義しているため、露出、性的ほのめかし、芸術などはすべてポルノに分類される可能性があり、さまざまなシナリオやさまざまなグループの人々に直面している場合、ポルノの定義を統一することはできません。したがって、最初に学習したモデルの一般化能力は限られています。機械の予測精度を向上させるには、誤分類されたサンプルを継続的に追加し、機械が増分学習を通じてより多くの特徴を学習してエラーを修正できるようにする必要があります。さらに、以下の点でも最適化を行いました。

  • モデルの改良。当社の分類モデルは、画像のポルノレベルをポルノ、セクシー、普通の人、その他のカテゴリに分類します。このうち、ポルノ、セクシー、一般人の画像は区別が難しく、その他のカテゴリは一般人ではない画像です。セクシーな人物や普通の人物のカテゴリーをポルノのカテゴリーから分離すると、モデルのポルノの識別能力が向上します。表 2 からわかるように、Yahoo の NSFW モデルと比較すると、私たちのモデルは再現率において明らかに優れています。

表2 ポルノ画像の検出精度

  • 機械によるレビューと手動によるレビューを組み合わせたもの。実際のビジネスでは、ポルノ検出には早期警告メカニズムが採用されているため、機械によるレビュープロセスで疑わしい画像を可能な限りすべて呼び出し、その後、適切な量の手動レビューを組み合わせて精度を向上させる必要があります。したがって、上位レベルのビジネス ロジックは、モデルの予測カテゴリと信頼度に応じて、画像を「確認済みのポルノ画像」、「確認済みの非ポルノ画像」、「疑わしい」の 3 つの部分に分割します。 「疑わしい」部分は信頼度レベルに応じて高から低の順に並べ替えられ、手動レビューに転送されます。オンラインビジネスでは、「ポルノ画像の判定」と「非ポルノ画像の判定」の精度は99%以上に達し、「疑わしい」部分は画像全体の約3%を占めるだけです。これにより、高精度のフィルタリングを確保しながら、人手を大幅に節約できます。
  • ビデオコンテンツのレビューをサポートします。短い動画コンテンツのレビューでは、キーフレームを抽出して単一の画像のレビューに変換し、複数のフレームの認識結果を融合して結論を​​導き出します。

シーン分類

美団は、食べる、飲む、遊ぶ、楽しむのあらゆる面をカバーするインターネットプラットフォームとして、表3に示すように、さまざまな垂直分野に事業を展開しています。販売者の事業範囲と一貫性を保つために、業務のカテゴリーやユーザーがアップロードした画像を識別する必要があります。さらに、表示効果をさらに向上させるためには、図 8 に示すように、販売者アルバム内の写真を分類して整理する必要があります。

表3 美団の第一階層のカテゴリーと画像の比率

図8 ビジネスアルバム画像分類

深層畳み込みニューラルネットワークは、画像分類関連のタスク(ILSVRCなど)において人間の目の認識率を超えていますが、典型的な教師あり学習法であるため、特定の分野ではラベル付けされたサンプルの量と質に対する要求が顕著です。画像のスクリーニングとクリーンアップをレビュー担当者に完全に依存した場合、シーン分類タスクは非常にコストがかかります。そのため、転移学習に基づいてモデルを微調整する必要があります。

転移学習は、1 つ以上の類似のタスク、ドメイン、または確率分布から学習した知識を保持および活用することで、対象タスクのパフォーマンスを迅速かつ効果的に向上させることを目的としています。モデル転送は、転移学習の分野でよく使用される転送手法であり、元のドメイン(ソースドメイン)モデルとターゲットドメイン(ターゲットドメイン)モデルの共通パラメータを学習することで転送を実現します。ディープニューラルネットワークは階層構造を持ち、その隠れ層は抽象的かつ不変の特徴を表現できるため、モデル転送に非常に適しています。

元のドメインでトレーニングされた深層畳み込みニューラルネットワークに関しては、どの層のパラメータを移行できるか、どのように移行するかに注意する必要があります。レベルによって転送可能性は異なり、ターゲット ドメインと元のドメインの類似性が高いレベルほど転送される可能性が高くなります。具体的には、浅い畳み込み層で学習された特徴はより一般的 (画像の色、エッジ、基本的なテクスチャなど) であるため転送に適していますが、深い畳み込み層で学習された特徴はよりタスク依存的 (画像の詳細など) であるため転送には適していません (図 9 を参照)。

図9 深層畳み込みニューラルネットワークの階層構造と特徴の説明

モデル転送は、ネットワークの特定のレイヤーのパラメータを固定し、ターゲット ドメインのデータを使用して他のレイヤーをトレーニングします。シーン分類タスクでは、まず分類カテゴリの数に応じてネットワーク出力層を変更し、次に浅い畳み込み層を修正して、ビジネス注釈データに基づいてネットワークの最後の数層のパラメータをトレーニングします。より多くのトレーニング データが利用できる場合は、図 10 に示すように、ネットワーク全体のパラメーターをさらに微調整して、パフォーマンスをさらに向上させることができます。

教師あり学習のために画像の高レベルの意味的特徴を直接抽出することと比較して、段階的なパラメータ転送は、元のドメインとターゲット ドメイン間の違いに対してより堅牢です。

図10 深層畳み込みニューラルネットワークに基づくモデル移行

上記の転移学習戦略に基づいて、食事シーンの写真とホテルの部屋の写真の分類に関する関連実験を実施しました。限られた数のラベル付きサンプル(数万枚の写真)に基づいて、高い認識精度を達成しました。テストセットでのパフォーマンスを表 4 に示します。

表4 食事シーンの分類

前述のように、ディープラーニングベースの画像分類および検出方法は、インテリジェントな画像レビューにおいて従来の機械学習方法に取って代わりました。公開モデルと転移学習に基づいて、膨大なデータからの継続的な学習を通じてビジネスシナリオを実現しました。

参考文献

[1]H. Chen、SS Tsai、G. Schroth、DM Chen、R. Grzeszczuk、B. Girod。「エッジ強調された最大安定極値領域を持つ自然画像における堅牢なテキスト検出」ICIP 2011。

[2] Z Zhong、L Jin、S Zhang、Z Feng。「DeepText:自然画像におけるテキスト提案生成とテキスト検出のための統合フレームワーク」。アーキテクチャサイエンス2015。

[3]Minghui Liao、Baoguang Shi、Xiang Bai、Xinggang Wang、Wenyu Liu。「TextBoxes:単一のディープニューラルネットワークによる高速テキスト検出器」AAAI 2017。

[4] S. Ren、K. He、R. Girshick、J. Sun。より高速なr-cnn。「領域提案ネットワークによるリアルタイム物体検出に向けて」NIPS 2015。

[5]Graves, A.; Fernandez, S.; Gomez, F.; Schmidhuber, J.「コネクショニスト時間分類:リカレントニューラルネットワークによるセグメント化されていないシーケンスデータのラベル付け」ICML 2006。

[6] R Girshick、J Donahue、T Darrell、J Malik。「正確な物体検出とセマンティックセグメンテーションのための豊富な特徴階層」CVPR 2014。

[7]J. Redmon、S. Divvala、R. Girshick、A. Farhadi。「一度だけ見る:統合されたリアルタイムの物体検出」CVPR 2016。

[8]W. Liu、D. Anguelov、D. Erhan、C. Szegedy、S. Reed。「SSD:シングルショットマルチボックス検出器」ECCV 2016。

[9] 「識別的に訓練された部分ベースモデルによる物体検出」TPAMI 2010。

[10]堅牢なリアルタイム物体検出。ポール・ヴィオラ、マイケル・ジョーンズ。IJCV 2004。

[11] N. Markus、M. Frljak、IS Pandzic、J. Ahlberg、R. Forchheimer。「決定木で整理されたピクセル強度比較による物体検出」CoRR 2014。

[12] Shengcai Liao、Anil K. Jain、Stan Z. Li。「高速で正確な制約のない顔検出器」、TPAMI 2015。

[13] Dong Chen、ShaoQingRen、Jian Sun。「ジョイントカスケード顔検出およびアライメント」、ECCV 2014。

[14]Haoxiang Li、Zhe Lin、XiaohuiShen、Jonathan Brandt、Gang Hua。「顔検出のための畳み込みニューラルネットワークカスケード」、CVPR.2015。

[15] Lichao Huang、Yi Yang、Yafeng Deng、Yinan Yu。「DenseBox:ランドマークの位置特定とエンドツーエンドの物体検出の統合」CVPR 2015。

[16] Taigman Y、Yang M、Ranzato MA、他「Deepface:顔認証における人間レベルのパフォーマンスとのギャップを埋める」CVPR 2014。

[17] Sun Y、Wang X、Tang X。10,000クラスの予測からの深層学習による顔表現。CVPR 2014。

[18]Sun Y、Chen Y、Wang X、et al. 共同識別検証による深層学習による顔表現。NIPS。2014。

[19] FaceNet:顔認識とクラスタリングのための統合埋め込み。CVPR 2015。

[20]深層顔認識のための識別特徴学習アプローチ。ECCV 2016。

[21]コンピュータビジョンのためのインセプションアーキテクチャの再考。CVPR 2016。

[22]Alex Krizhevsky、IlyaSutskever、Geoffrey E. Hinton。「深層畳み込みニューラルネットワークによるImageNet分類」2014年。

[23] Murray, N., Marchesotti, L., Perronnin, F.「Ava: 美的視覚分析のための大規模データベース」CVPR 2012。

<<:  回帰問題に最適な機械学習アルゴリズムを選択する

>>:  今後10年間で、人間の仕事の約50%が人工知能に置き換えられるでしょうか?

ブログ    
ブログ    

推薦する

Bzip2アルゴリズムハードウェアアクセラレーション方式

本発明は、Bzip2 アルゴリズムのハードウェア アクセラレーション実装方法を開示する。この方法は、...

「業界最強」と称されるアリトン・イー・チエンウェン、国内No.1大型モデルを目指す

どの時代にもメインテーマがあり、次の10年の主なテーマはAIです。 ChatGPTの登場以来、中国で...

...

...

たった2枚の写真でAIは完全なモーションプロセスを生成できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能の時代においても、人間同士の交流は依然として重要である

実際、AI はほとんどの人間同士のやり取りに取って代わっています。デジタルアシスタントや AI ベー...

HarmonyOS メタサービス開発実践: デスクトップカード辞書

1. プロジェクトの説明1.DEMOのアイデアはカード辞書です。 2. カードによって表示される内容...

基礎知識がない人でも機械学習に切り替えることは可能ですか?

基礎知識がない人でも機械学習に切り替えることは可能ですか?機械学習には一定の数学的基礎が必要であり、...

マスク氏のAIスタートアップxAIは社会への影響を優先する特別な構造を採用

12月27日、テスラのCEOイーロン・マスク氏が新たに設立したAIスタートアップ企業xAIは、競合他...

...

セキュリティ | 機械学習の「データ汚染」を 1 つの記事で理解する

人間の目には、以下の 3 つの画像はそれぞれ異なるもの、つまり鳥、犬、馬に見えます。しかし、機械学習...

...

カルパシーはOpenAIの内部闘争中にビデオを録画しました:大規模言語モデル入門がオンラインです

OpenAIでの混乱はひとまず終息し、社員たちは忙しく「仕事」をしている。今年初めに OpenAI ...

顔認識には「強制的な同意」ではなく「個人の同意」が必要なのでしょうか?弁護士の言うこと

顔認識技術は、複製不可能、非接触、高速などの利点により、インテリジェントな通過と迅速な本人確認に優れ...

国内メディアが大々的に報じた「世界初のAI地震監視システム」は的外れ

[[387555]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...