マイクロソフトの新しい画像キャプションAIは、Word、Outlook、その他のソフトウェアのアクセシビリティ向上に役立ちます。

マイクロソフトの新しい画像キャプションAIは、Word、Outlook、その他のソフトウェアのアクセシビリティ向上に役立ちます。

Microsoft は、特定の限定されたテストにおいて人間の精度を上回る新しい画像キャプション作成アルゴリズムを開発しました。このAIシステムは、同社の視覚障害者向けアシスタントアプリ「Seeing AI」のアップデートに使用されており、近々Word、Outlook、PowerPointなど他のマイクロソフト製品にも組み込まれる予定だ。そこでは、アクセシビリティの向上に特に重要な機能である、画像の代替テキストの作成などのタスクに使用されます。

これらのアプリには、マイクロソフトが2017年に初めてリリースした同社独自の「Seeing AI」も含まれる。 Seeing AI は、コンピューター ビジョンを使用して、視覚障害者向けにスマートフォンのカメラを通して見た世界を説明します。家庭用品を識別したり、テキストを読み取ってスキャンしたり、場面を説明したり、さらには友人を認識したりすることもできます。また、電子メール クライアント、ソーシャル メディア アプリ、WhatsApp などのメッセージング アプリなど、他のアプリ内の画像を説明するためにも使用できます。

マイクロソフトはSeeing AIのユーザー数を公表していないが、Azure AIのコーポレートバイスプレジデントであるエリック・ボイド氏はThe Vergeに対し、このソフトウェアは「視覚障害者や弱視者向けの主要なアプリケーションの1つ」だと語った。 Seeing AI は、視覚障碍者および弱視者の iOS ユーザー向けコミュニティである AppleVis によって、3 年連続で最優秀アプリまたは最優秀支援アプリに選ばれました。

Microsoft の新しい画像キャプション アルゴリズムは、オブジェクトを識別するだけでなく、それらの間の関係をより正確に記述することで、Seeing AI のパフォーマンスを大幅に向上させます。したがって、アルゴリズムが写真を見ると、写真にどのようなアイテムやオブジェクトが含まれているか(「人、椅子、アコーディオン」など)だけでなく、それらの間の相互作用関係(「人が椅子に座ってアコーディオンを演奏している」など)も判断できます。マイクロソフト社によると、このアルゴリズムは同社が2015年から使用している従来の画像キャプションシステムよりも2倍高速だという。

9月に発表されたプレプリント論文で説明されているこのアルゴリズムは、「nocaps」として知られる画像キャプションのベンチマークでこれまでで最高のスコアを達成した。これは業界をリードする画像キャプション スコアリング ボードですが、独自の制限があります。 nocaps ベンチマークは、Open Images Dataset から抽出された約 15,100 枚の画像を説明する、166,000 を超える人間が生成したキャプションで構成されています。画像はスポーツから休日のスナップ、食べ物の写真など、さまざまなシーンをカバーしています。

[[346441]]

<<:  ML Ops: データ品質が鍵

>>:  「脳コンピューターインターフェースドレス」とはどのようなものでしょうか? 1024個の独立した電極、機械学習、カスタムチップ

ブログ    
ブログ    

推薦する

時系列予測のための 5 つのディープラーニング モデルの比較

マクリダキス M-コンペティション シリーズ (M4 および M5 と呼ばれます) は、それぞれ 2...

人工知能を正しく実装するにはどうすればいいでしょうか?

[[264479]]人工知能 (AI) が私たちの日常の仕事や生活にますます普及し、企業がさまざま...

人工知能が診断ツールをどのように変えるのか

医療においては、新しいアイデアが常に命を救うのに役立ちます。 1895 年にウィレム・アイントホーフ...

...

AIがイノベーションの大きな原動力となる理由

近年、人工知能は新興技術から必需品へと徐々に変化してきました。より大規模な企業の問題に対する解決策を...

AIの負担を軽減する時が来た。Python AIライブラリ5選のおすすめ

機械学習は興味深いものですが、作業範囲が広く複雑で困難です。開発者として学ぶべきツールはたくさんあり...

...

テンセントが自動運転車市場に参入、百度セキュリティが共同で「OASESスマート端末セキュリティエコロジカルアライアンス」を設立

テンセントは自動運転システムを開発し、無人運転市場への参入も狙っている。百度セキュリティはファーウェ...

ガートナー、中国企業向け人工知能トレンド ウェーブ 3.0 を発表

2023 年 6 月 13 日 – 先日開催された 2023 年 Greater China Exe...

人工知能によるUAV戦闘能力の向上

[[282882]]リーパードローンつい最近、米国空軍は、リーパー無人航空機の製造元であるゼネラル・...

ニューラルネットワークと数学の関係は何ですか?読めば分かるよ

ニューラル ネットワークについて学んだことのある人なら誰でも、ニューラル ネットワークには非常に一般...

Google の最新のオープンソース Gemma モデルが Llma-2 を数秒で上回りました。

ジェマとはジェマ軽量で最先端のオープンモデルシリーズで、 ジェミニ同じ研究と技術をモデル化します。 ...

純粋な MLP は下流のタスクには適していませんか? Meta AIらは、トランスフォーマーを上回るスパースMLPを提案した。

注意ベースのモデルの代替として、純粋な MLP アーキテクチャがますます注目を集めています。 NLP...