Microsoft は、特定の限定されたテストにおいて人間の精度を上回る新しい画像キャプション作成アルゴリズムを開発しました。このAIシステムは、同社の視覚障害者向けアシスタントアプリ「Seeing AI」のアップデートに使用されており、近々Word、Outlook、PowerPointなど他のマイクロソフト製品にも組み込まれる予定だ。そこでは、アクセシビリティの向上に特に重要な機能である、画像の代替テキストの作成などのタスクに使用されます。 これらのアプリには、マイクロソフトが2017年に初めてリリースした同社独自の「Seeing AI」も含まれる。 Seeing AI は、コンピューター ビジョンを使用して、視覚障害者向けにスマートフォンのカメラを通して見た世界を説明します。家庭用品を識別したり、テキストを読み取ってスキャンしたり、場面を説明したり、さらには友人を認識したりすることもできます。また、電子メール クライアント、ソーシャル メディア アプリ、WhatsApp などのメッセージング アプリなど、他のアプリ内の画像を説明するためにも使用できます。 マイクロソフトはSeeing AIのユーザー数を公表していないが、Azure AIのコーポレートバイスプレジデントであるエリック・ボイド氏はThe Vergeに対し、このソフトウェアは「視覚障害者や弱視者向けの主要なアプリケーションの1つ」だと語った。 Seeing AI は、視覚障碍者および弱視者の iOS ユーザー向けコミュニティである AppleVis によって、3 年連続で最優秀アプリまたは最優秀支援アプリに選ばれました。 Microsoft の新しい画像キャプション アルゴリズムは、オブジェクトを識別するだけでなく、それらの間の関係をより正確に記述することで、Seeing AI のパフォーマンスを大幅に向上させます。したがって、アルゴリズムが写真を見ると、写真にどのようなアイテムやオブジェクトが含まれているか(「人、椅子、アコーディオン」など)だけでなく、それらの間の相互作用関係(「人が椅子に座ってアコーディオンを演奏している」など)も判断できます。マイクロソフト社によると、このアルゴリズムは同社が2015年から使用している従来の画像キャプションシステムよりも2倍高速だという。 9月に発表されたプレプリント論文で説明されているこのアルゴリズムは、「nocaps」として知られる画像キャプションのベンチマークでこれまでで最高のスコアを達成した。これは業界をリードする画像キャプション スコアリング ボードですが、独自の制限があります。 nocaps ベンチマークは、Open Images Dataset から抽出された約 15,100 枚の画像を説明する、166,000 を超える人間が生成したキャプションで構成されています。画像はスポーツから休日のスナップ、食べ物の写真など、さまざまなシーンをカバーしています。
|
>>: 「脳コンピューターインターフェースドレス」とはどのようなものでしょうか? 1024個の独立した電極、機械学習、カスタムチップ
マクリダキス M-コンペティション シリーズ (M4 および M5 と呼ばれます) は、それぞれ 2...
Ant Groupが開発した中国初の金融グレードの信頼できるTEEシステムであるHyperEncla...
[[264479]]人工知能 (AI) が私たちの日常の仕事や生活にますます普及し、企業がさまざま...
医療においては、新しいアイデアが常に命を救うのに役立ちます。 1895 年にウィレム・アイントホーフ...
近年、人工知能は新興技術から必需品へと徐々に変化してきました。より大規模な企業の問題に対する解決策を...
機械学習は興味深いものですが、作業範囲が広く複雑で困難です。開発者として学ぶべきツールはたくさんあり...
自宅に設置したカメラにシステム障害が発生し、他人にプライバシーが「覗き見」されてしまう――心配してい...
テンセントは自動運転システムを開発し、無人運転市場への参入も狙っている。百度セキュリティはファーウェ...
2023 年 6 月 13 日 – 先日開催された 2023 年 Greater China Exe...
[[282882]]リーパードローンつい最近、米国空軍は、リーパー無人航空機の製造元であるゼネラル・...
ニューラル ネットワークについて学んだことのある人なら誰でも、ニューラル ネットワークには非常に一般...
ジェマとはジェマ軽量で最先端のオープンモデルシリーズで、 ジェミニ同じ研究と技術をモデル化します。 ...
注意ベースのモデルの代替として、純粋な MLP アーキテクチャがますます注目を集めています。 NLP...