この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。 この記事は、人工知能の分野が独自の法則に従ってどのように発展できるかを論じた最初の記事ではありません (また、最後の記事でもないでしょう)。ハンナ・カーナーは最近こう言っています。「多くの AI 研究者は、現実世界の問題は重要ではないと考えています。コミュニティは新しい方法に過度に集中し、本当に重要なことを無視しています。」
多くの大規模会議では、現在の技術を使用して現実世界の問題を解決することに焦点を当てた応用論文が露骨に無視されており、その多くはプロセスで直面する課題にも焦点を当てています。このプログラムは幻想的なものであり、標的検出の精度がさらに 10% 向上することは、がんによる死亡率の 1% 低下よりもはるかに価値があります。 AIコミュニティは、ディープラーニングが実験科学であるという明白な事実を見落としています。ニューラルネットワークは構造が明確であるにもかかわらず、説明するのが難しい大規模な非線形システムです。ニューラルネットワークを解明するための研究努力は増えているものの、ニューラルネットワークは相変わらず謎に包まれたままです。科学的方法は実験に根ざしているため、ニューラル ネットワークを理解するための唯一の信頼できるツールです。 矛盾なのは、ニューラル ネットワークの本質は実験であるにもかかわらず、この分野では純粋な実験が受け入れられないということです。通常、ニューラル ネットワークの論文では、最初にその新規性を紹介し、次に正式な証明を試み、次にアブレーション研究を行い、最後に結論を導きます。これは実験から導き出された結論です。 土木技術者が別の橋の設計をすることに決めたが、テーブルサイズのレゴのレプリカでそれをテストすることにしたと想像してください。高価なシミュレーションや実際の建築資材を使った試験を行わずに提案された設計を信頼しますか? 実現するために何百万ドルも投資するほどこれらの実験を信頼しますか? あなたに勇気があるかどうかは別として、私はそうしません。 世界を簡略化したモデルは、アイデアを素早くプロトタイプ化したり試したりするのに役立ちます。しかし、実際に検証するには、現実世界で試してみる必要があります。これは 2 段階のプロセスです。 現代の AI 研究は前半のベンチマーク問題に行き詰まっていますが、実際の使用例は後半です。 ImageNet、COCO、CIFAR-10、これらは人工知能のレゴです。これらは、新しいアイデアを試したり、悪いアイデアを捨てたりすることを可能にする、素晴らしいツールです。しかし、それらは目的を達成するための手段であり、目的そのものではありません。 これは現在の研究が間違っていると言っているのではなく、主な問題は学問の世界と現実世界との断絶にあるのです。 このグラフをご覧ください: このグラフは、COCO オブジェクト検出ベンチマークの最新の進捗状況を示しています。各ドットは、新しい技術または既存の技術の融合である異なるモデルです。リーダーは青で強調表示されています。 COCO テスト開発リーダーボードにコーディングが掲載された論文 このグラフは、2016 年 1 月の 28.8 ポイントから 2020 年 7 月の 55.1 ポイントまでの軌跡を示しています。進歩は否定できないものであり、図からわかるように、EfficientDet D7x は現在最高の物体検出技術です。しかし、質問させてください。アプリケーションではどのモデルを使用しますか? 私がどのアプリについて話しているか、またはそのアプリの要件が何であるかを知らないため、おそらく答えることはできないでしょう。リアルタイムで実行する必要がありますか? モバイル デバイスで実行できますか? 認識する必要があるクラスの数はいくつですか? 誤検出に対するユーザーの許容範囲はどの程度ですか... 回答に基づくと、EfficientDet D7x も含めて、上記のどれも検討する価値がありません。モデルをモバイル フォンでリアルタイムに実行する必要がある場合、これらのモデルにわずかな調整を加えても機能しません。さらに悪いことに、これらのモデルが連続するフレームにわたって一貫した検出結果を生成できるという保証はありません。高精度以外に、最高品質の検出を必要とするアプリケーションを一つも挙げることができません。 言い換えれば、科学界は研究そのものにのみ役立つ指標を追求しているのです。 2015年には、ニューラル ネットワークの深さを 12 層以上に増やすとパフォーマンスが低下することが研究で明らかになりました。有名な Residual Network (ResNet) 論文 (https://arxiv.org/abs/1512.03385) で、Kaiming He 博士と他の数人の学者は、スキップ接続を介して非連続レイヤーを接続すると、勾配フローが改善されるため容量が増加するという仮説を立てました。 初年度、ResNet は ILSVRC や COCO などのいくつかのベンチマーク コンペティションで優れた結果を達成しました。しかし、これは ResNet が重要な貢献であったことを示唆しているだけで、証明ではないことに、もうお気づきだと思います。 ResNet が AI の歴史の中で占める位置の決定的な証拠は、その膨大な研究成果に基づいています。 ResNet の素晴らしい点は、競争に勝つことではなく、解決する無関係な問題の数です。その本当の貢献は、アーキテクチャそのものではなく、スキップ接続のアイデアにあります。 Focal Loss に関するこの論文 (https://arxiv.org/abs/1708.02002) も時の試練に耐え、確かに他の人の研究を改良したものです。注意に関するこの論文も同じ方向性をとっています。 Attention がベンチマークをどのように改善するか、また集約損失によって Attention がさらに改善される仕組みについて議論する新しい記事が毎日公開されています。 重要なのは競争ではなく、その後の影響です。実際、ILSVRC 2012 の優勝者は AlexNet であり、2015 の優勝者は ResNet でした。 2013 年と 2014 年の受賞者を教えてください。2016 年、2017 年、2018 年の課題は何でしたか。ILSVRC が毎年開催されるようにできますか。 「なぜもっと良いベンチマークやもっと役に立つ指標がないのか?」と疑問に思うかもしれません。影響度をどうやって測定するのか? 残念ながらそれはできません。引用数やダウンロード数、Reddit 訪問者数、GitHub スター数などを使うことができます。しかし、これらの指標には欠陥があります。公平な比較を行うには、あらゆる詳細を考慮し、方程式からすべての偏差を正規化する必要がありますが、これは困難です。 たとえば、Attention と ResNet の影響を比較するには、これらの概念の正しい使用を考慮し、相対的な影響を比較検討し、時間と範囲にわたって正規化する必要があります。明らかに、これらの特性を定量化することは膨大な作業であり、あらゆるベンチマークや測定基準と同様に欠陥がある可能性があります。雑誌のインパクトファクターのようなアイデアは、この問題の表面をかすめることさえありません。 いくつかの目標は定量化できません。最も権威があるのは誰でしょうか? 西洋音楽史上最も影響力のある作曲家バッハでしょうか、それとも最も影響力のある劇作家シェイクスピアでしょうか? 彼らの分野は言うまでもなく、彼らの作品を比較しても意味がありません。 バッハかシェイクスピアか、音楽か演劇か? これは行き止まりです。精度や速度は測定できますが、影響を判断することはできません。より優れた科学が必要であることには誰もが同意しますが、ある科学が他の科学より優れているかどうかをどうやって判断するのでしょうか。研究と現実の乖離をどのように測定するのでしょうか。私たちは人工知能を前進させたいと考えていますが、どこに向かっているのか、どこまで進んでいるのかはわかりません。 これは AI だけの問題ではありません。私たちはより良い政府、より良い医療、より良い教育を望んでいますが、それを実際にどのように定量化するのでしょうか? これまでのところ、最も失敗しているアプローチ (そして最も普及しているアプローチ) は、COCO AP スコアなどの代替指標です。 AIの進歩を測定することはできませんが、現在の物体検出方法がどれだけ正確であるかを測定することはできます。物体検出も AI の一部なので、ここで進歩できれば人工知能も進歩すると期待できます。 COCO に落ち着く前は、ImageNet のトップ 5 の結果を使用していたため、より困難な問題に直面していました。検出モデルをトレーニングすることで AP を改善することはできませんが、境界ボックス座標の L2 損失を減らすようにモデルをトレーニングすることはできます。損失は微分不可能なメトリックの代替です。 L2 損失は AP ではありませんが、L2 損失が低いと AP が高くなるため、効果的です。 過去には、多くの国において識字率が教育の進歩を測る主な指標でした。数十年後、識字率は非常に高くなり、より高い学校修了率が教育の進歩を測る上での焦点となりました。そして、大学進学率も高くなります。学位と教育の関係が私たちが考えるほど強いのか、あるいは高校が教えるべきことを教えているのかどうかはわかりませんが、それが私たちが今日追求している指標です。 ある意味では、これらの問題に対する正しい解決策は存在しません。したがって、定義上、すべてのルートは間違っています。できるだけ多くのアプローチを試すことによってのみ、比較的正しい道を選ぶことができます。 AI 用語を使用すると、より大きなバッチ サイズを使用し、できるだけ多くの分布をサンプリングする必要があります。 つまり、私たちは「正確性」や「スピード」だけでなく、「堅牢性」や「一貫性」といったことにも焦点を広げる必要があるということです。最も重要なのは、慎重に選択されたベンチマークから現実世界に移行する必要があることです。 乳がん検出アルゴリズムに関する私の研究の場合、研究者がこの分野を解決済みのものとして誤って扱うことはよくあります。最近の研究ではこのテーマに関して超人的な結果が達成されていますが、これらのアルゴリズムはどの病院でも適用できるわけではありません。理由は簡単です。機能しないからです。 これは少し大げさに聞こえるかもしれませんが、実は非常に単純です。同じもの、つまりマンモグラムであっても、データセット A でアルゴリズムをトレーニングすると、そのアルゴリズムはデータセット B では機能しません。 現時点では、あるデータセットでトレーニングし、微調整なしで他のデータセットでもうまく機能する既知の手法はありません。有用な結果を得るには、機械ごと/病院ごとにデータセットを構築する必要があります。メトリックは妥当であり、この領域は解決されています。実際のところ、始めることさえ難しいのです。 最も重要なのは、アルゴリズムは答えの支援を提供できないということです。医師の立場になって考えてみてください。機械がそう言ったからといって、患者に癌であると告げますか? 告げることはありません。もう一度画像を見るでしょう。 人々が AI を信頼しなければ、AI は決して使用されません。 これまで、出版された論文の主な基準は AUC スコアでした。これは、アルゴリズムがマンモグラムを良性か悪性かにどの程度正確に分類するかを示しますが、他のデータセットに対してどの程度堅牢であるか、またはそれが解釈可能かどうかは示しません。言い換えれば、「それは機能するのか?」という疑問には決して答えません。 人工知能を開発する正しい方法はありませんが、非常に間違った方法は確かに存在します。文献のほとんどがいかに当てはまらないか、そして本当に差し迫った問題がいかに露骨に無視されているかが分かるのに、それほど時間はかかりません。 冒頭で述べたように、この記事は現在の研究が悪いと非難するものではなく、問題は学術界と現実世界の間に現在ある断絶にある、つまり私たちが正確さに焦点を絞りすぎていることにあると主張するものです。 人工知能の開発は机上の空論ではありません。社会の発展を促進することが本当に重要であり、私たちは人工知能の向上を通じてそれを実現したいと考えています。しかし、これを正しく実行できるのは、私たちが現実の社会問題に向き合う場合のみです。社会の問題は正確な物体検出よりもはるかに複雑である |
<<: 従来の連合学習が異種混在の課題に直面したときは、これらのパーソナライズされた連合学習アルゴリズムを試してみてください。
>>: 顔認識は「スマート交通」に役立ち、3つの側面でその価値を実証する
[[421266]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
Transformerモデルは2017年の誕生以来、自然言語処理やコンピュータービジョンなど多くの分...
まず、なぜこれを書くのかお話しします。プログラマーになるのは本当に大変です。長い年月を経ても、レンガ...
新型コロナウイルスの世界的な感染拡大は187の国と地域に広がり、417万人が感染している。ほとんどの...
近年、機械翻訳 (MT) は大きな進歩を遂げ、満足のいく成果を達成しました。 MT は人工知能分野の...
7月3日、北京で開催されたBaidu Create 2019 Baidu AI Developer ...
ゲーム内音声通信の要件2015 年にはすでに、iMedia Research がモバイル ゲームのソ...
昨年、Xiaomi がジョンズ・ホプキンス大学の人工知能の専門家であるダニエル・ポービー氏を採用した...
さて、一年で最も暑い時期、真夏が正式に到来しました。今年の猛暑は7月11日から8月19日までの40日...
自動運転前夜2021年、ビル・ゲイツは「すべての家庭にロボットを」と題する記事を発表し、爆弾処理ロボ...