政府機関には常にさまざまな文書が詰まっていますが、その多くは紙の文書であり、電子文書であっても、実際の処理と解釈には依然として多くの人手が必要です。このため、連邦政府機関は、高度な機械学習、ニューラル ネットワーク、自然言語処理 (NLP) 技術などの AI 技術に期待を寄せており、これにより、こうした文書の処理効率が向上し、貴重な人的資源を可能な限り解放できるようになります。これらのテクノロジーの多くはすでに他の業界で成熟したアプリケーションがあり、さまざまなワークフローやタスクを強化するために拡張されていますが、一部の政府部門ではまだ完全に新しいものです。 米国労働統計局 (BLS) を例に挙げてみましょう。同局の主な責務は、さまざまな職場で共通する健康被害を確認するために職業上の傷害および疾病の調査を実施し、指針となる政策の策定を支援することです。この任務を遂行するために、労働統計局は、職場の調査データを通じてさまざまな種類の傷害や病気を分類することに専念する、訓練を受けた数十人の従業員を全国のオフィスに配置しています。しかし、この作業は常に手作業で行われていたため、さまざまなマーキングやコーディングのエラーが発生したり、速度やコストのボトルネックが生じたりして、プロセス全体の効率向上が妨げられていました。
▲画像:米国労働統計局の経済学者アレックス・メジャー氏 労働局は、プロセス全体を簡素化するために機械学習技術を導入することを決定しました。約 10 年前、労働省の経済学者アレックス メジャー氏は、機械学習 (ML) が労働省のプロセス改善にどのように役立つかを調査することにしました。彼は、労働省と連邦政府全体に AI を組み込む際の特有の課題、各機関が AI を適用する際に直面するデータの課題、そして今後数年間に最も期待している重要な発見について私たちと共有します。 この記事では、機械学習を政府のビジネス シナリオ、特にドキュメントと手動プロセスに適用することに関する彼の貴重な洞察について学びます。 Q: データの収集と処理において、当局が直面している具体的な課題は何ですか? アレックス・メジャー氏:労働統計局は、雇用、人件費、労働時間、職場での怪我のリスクなど、幅広いテーマについて大量の情報を収集する必要があります。調査と他の分野との唯一の共通点は、結果が自然言語で提示されることが多いことです。情報収集プロセスでは、インタビュー、調査、その他の方法を問わず、収集された情報のほとんどは言語の形で伝えられます。これを実現するには、言語を統計データに変換する必要があります。このプロセスは、よくエンコーディングと呼ばれます。 このプロセスでは、注目に値する主要な特徴を示すために、標準化された分類メトリックを割り当てる必要があります。たとえば、職業傷害疾病調査では、毎年数十万件の労働関連の傷害および疾病の調査データを収集しています。 「職場での清掃員の怪我の最も一般的な原因は何ですか?」のような質問に答えるには、それぞれの説明を注意深く読み、その人の職業と怪我の原因となった要因との関連性をコード化する必要があります。次に、得られた情報を集約して実用的な質問に答えます。最近まで、プロセス全体は非常に面倒で、作業の多くは手作業で行う必要がありました。 当社は、職業上の傷害や疾病の調査に年間約 25,000 時間を費やしています。タスクをできるだけ早く完了したい場合は、より多くの人材を雇用し、より多くの新入社員をトレーニングし、彼らが統一された方法でコンテンツを解釈できるようにする必要があります。これは非常に困難です。実際、同等の経験を持つ 2 人の専門家が同じ傷害説明資料をまとめた場合でも、同じ資料に対してまったく同じ傷害コード分類を与える可能性は約 70% しかないことがわかりました。こうした課題は、ILO 内部だけでなく、同様の任務を遂行する世界中の組織にも存在します。 Q: では、労働省は機械学習をどのように活用してこれらの問題に対処しているのでしょうか? アレックス・メジャー: 7年前、労働局は職業上の傷害および疾病調査のすべてのコーディングを完了しました。過去 1 年間で、私たちは教師あり機械学習、具体的にはディープ ニューラル ネットワークを使用して、処理タスクの 85% 以上を自動化しました。その後、局はこれらの技術を、職業/生産分類から健康保険や労働要件に至るまで、あらゆる関連業務に徐々に適用し始めました。 Q: 長年にわたり、労働省の AI 技術に対する見解と応用にはどのような変化がありましたか? Alex Measure:私が労働統計局に入社したのは約 12 年前ですが、当時はまだ、資料のエンコードに主に知識工学やルールベースの手法が使用されていました。基本的な考え方は、コンピューターに何かを実行させたい場合、タスクを実行するために必要なすべてのルールと情報を明示的に伝える必要があるということです。たとえば、職業を分類する場合、考えられるすべての職種とそれに対応する職業コードのリストを作成するとよいかもしれません。 このアプローチは単純で標準化されたタスクにはうまく機能しますが、残念ながら、職業分類などの非常に特殊なアプリケーション領域であっても、システムは人間の言語を直接処理することがほとんどできません。たとえば、職業傷害疾病調査では、毎年寄せられる職名のうち約 2,000 件が、システムによって「管理者」として直接マッピングされていることがわかりました。さらに悪いことに、これまでデータに登場したことのない新しい職種が常に存在し、特定の会社の命名規則や業界で使用されている従来の用語に応じて、職種によっては業界と密接に結びついているものもあります。その結果、840 を超える職業分類しかサポートできない、大規模で複雑なルール セットを開発する必要がありました。さらに悪いことに、このシステムの構築と維持は非常に困難です。 教師あり機械学習は代替手段を提供します。つまり、コンピューターにどのようなタスクを知って実行する必要があるかを明示的に指示するのではなく、コンピューターがデータから学習し、特定のタスクを独自に実行する最適な方法を見つけるように誘導できるようになりました。大規模なデータ資料(長年にわたり、相当なデータリソースを蓄積してきました)があれば、人手をほとんど投入せずに、非常に効率的なシステムを構築できる場合がよくあります。私たちの場合、労働省はわずか数週間で無料のオープンソース ソフトウェアを使用して最初の機械学習システムを構築し、そのシステムが、長い間使用してきた高価なルールベースのアプローチをはるかに上回るパフォーマンスを発揮することを発見しました。さらに驚くべきことは、そのパフォーマンスが当社のコーダーのパフォーマンスよりもさらに高いことです。 従来のソリューションと比較して、機械学習の手法は自動化の開発の余地をさらに広げます。現在、ILO や世界中の統計機関は、同様の業務にこの技術を急速に導入しています。もちろん、機械学習は他の分野でも優れた成果を上げています。当社では機械学習技術を使用して、データエラーを自動的に検出し、データセット内の欠落レコードを自動的に照合してラベル付けしています。これは私たちにとって非常に重要なことであり、労働省がより多くの異なる情報源から大量のデータを収集するのに役立つでしょう。 Q: AI/ML テクノロジーの導入は、オリジナルのコーダーにどのような影響を与えましたか? Alex Measure:自動化ソリューションの導入を最初に検討する際は、一般的に不安感があり、多くの従業員が自動化に抵抗し、それを脅威と見なします。しかし、そうではありません。それは、私たちが取った具体的な実施アプローチと、全体的な状況を総合的に考慮した結果だと思います。まず、私たちは早い段階で、自動化の取り組みをデータ品質の向上に重点を置くことに決めました。これは、データの品質自体に加えて、エンコード プロセスが正しく実行されることを保証し、問題が発生した場合に事前に確立された信頼性の高いバックアップ プランを迅速にアクティブ化する必要がある、非常に斬新な方法でもあるため、非常に重要です。私たちの基本的な計画は次のとおりです。 まず、コンピューターが最も得意とする作業を自動化し、人間が最も得意とする作業を従業員に任せます。 次に、従業員が作業量や作業方法の変化に適応する時間を確保するために、自動化メカニズムを徐々に導入します。 3 番目に、従業員は自動的に割り当てられたコードを監視し、コンピューターが間違いを犯したと思われる場合に調整を行う人を割り当てる責任があります。 4 番目に、節約されたリソースは、データ収集やデータレビューなどの他の重要なタスクに使用できます。 その結果、次の 6 年間で、日常的なコーディング作業の多くが、より高速で高品質な自動データ レビューおよび収集ソリューションに取って代わられるようになりました。これにより、日常的な手動コーディングの必要性が大幅に減少する一方で、モデルが処理できない困難なケースについては依然として人間の専門家に頼ることになるという驚くべき結果も生じます。したがって、自動化の度合いが高くなるほど、処理できるデータの総量が増え、人間の介入が必要となるデータも増えます。その結果、機械学習システムが適切に動作していることを手動で調整して検証する責任を負う従業員の数が増加しました。 Q: 労働局での応用シナリオにおいて AI テクノロジーが発見した興味深い、あるいは驚くべき洞察をいくつか教えていただけますか? Alex Measure:個人的には、ここには 2 つの印象的な驚きがあると思います。 1 つ目は、無料のオープンソース ソフトウェアの存在です。これにより、機械学習システムの構築が非常に簡単になり、実際のパフォーマンスは、過去に使用していた高コストのルールベースの方法よりもはるかに優れています。 2 つ目のポイントは、このようなシステムは、訓練を受けた人間のコーダーよりも正確にコードを割り当てることができるということです。当初は想像もできなかったことですが、労働局全体がその優れた効果に慣れるまでには時間がかかりましたが、結果は非常に安定しています。 平均すると、当社の機械学習システムはリリース以来、コーディング精度において一貫して人間の従業員を上回ってきましたが、大量のデータの流入とそれに続くトレーニングによりその差は拡大し、当社は徐々にディープニューラルネットワークなどのより強力な機械学習アルゴリズムへと移行してきました。 Q: データの使用において、どのような特有の課題に直面しますか?これらの課題は、政府機関が AI 技術を利用する上で障害となるでしょうか? Alex Measure:最大の課題の 1 つはデータの機密性です。機械学習には大量のデータが必要であり、政府機関は実用的なデータを豊富に保有していますが、それを自由に公開することはできません。これにより、政府機関が機械学習テクノロジーを使用する具体的な方法が間違いなく制限されます。たとえば、ディープ ニューラル ネットワークを初めて使用しようとしたとき、既存のポリシーで明示的に禁止されていたため、クラウド リソースを直接使用することはできませんでした。これは大きな問題を引き起こしました。なぜなら、労働省には、必要な種類のニューラル ネットワーク モデルをトレーニングするのに十分なハードウェアが明らかになかったからです。最終的には、必要なハードウェアを社内で購入してインストールすることでこの問題を解決できましたが、これは他の多くの組織にとって克服するのが難しいハードルです。 もう一つの重要な課題はモデルの共有です。労働省が職業や傷害を標準化されたカテゴリーに自動的に分類できる機械学習モデルを開発すれば、この成果は労働省自身に役立つだけでなく、同様の業務を担う他の連邦機関にとっても大きな意義を持ち、さらには外部の研究機関や研究者にとっても大きな助けとなるでしょう。労働省のような政府機関は、関連データが大量にあるため、このようなモデルをトレーニングする独自の立場にあります。しかし、研究により、このようなモデルはトレーニング プロセスで使用されたデータ情報を不注意に公開する可能性があることが示されており、モデルの共有には注意が必要です。最近の他の研究では、いくつかの技術がこれらのリスクを軽減する可能性があることが示されており、国土安全保障省はこれらの技術の調査を開始していますが、これは依然として非常に困難な課題です。 Q: より広い視点で見ると、連邦政府のどの分野が AI によって大幅な効率性の向上が達成されると予想されますか? Alex Measure:政府でかなり長い間働いてきた私から見ると、ほぼすべての連邦政府機関が、教師あり機械学習技術を使用して日常業務のかなりの部分を自動化できる可能性があるように思えます。統計機関が最も典型的な例であり、その主な業務は言語のコーディングと分類です。現在、ますます多くの統計機関が同様の技術を使用して、異なるデータセットからのエラーを自動的に検出し、レコードを照合しています。 Q: 連邦政府機関は、技術革新のスキルを持つ高レベルの労働力を引き付けるためにどのような措置を講じることができますか? アレックス・メジャー:連邦政府機関が優秀な人材を引き付ける最善の方法は、使命感と名誉心を強調することだと思います。連邦政府機関は、多くの場合、最も重要な任務に焦点を合わせます。その任務が成功すれば、国全体に利益がもたらされるため、強い公民意識を持つ人々にとっては非常に魅力的です。結局のところ、意味のあるプロジェクトを見つけるのは簡単ではありません。また、外部からの採用が熟練した労働力を引き付ける唯一の方法ではないことを強調したいと思います。労働省のコーディング プロジェクトとそれに続く機械学習の試みの多くは、外部の AI 専門家ではなく、自動化技術のトレーニングを受け、強い関心を持つ社内の従業員に依存しています。もちろん、Coursera などの無料オンライン教育リソースもこの時期に重要な役割を果たしました。 統計局の職員がすでに統計に関する豊富な経験を有していたため、この道を進むことができた。確かなのは、機械学習プロジェクトを成功させるには、技術面を重視することと専門知識の蓄積に重点を置くことの両方が必要であるということです。政府職員はすでに自分の職業について非常に深い理解を持っており、インターネットには技術的な基盤を構築するための自由にアクセスできるリソースが多数あるため、この 2 つは調和的に統合されています。 Q: 今後数年間を見据えて、AI テクノロジーのどのような成果に最も期待していますか? Alex Measure:私の仕事は教師あり機械学習に大きく依存していますが、それでも大きな制限があります。優れたパフォーマンスを実現するには、豊富なトレーニング データが必要です。少量のデータではなく、一般の人が学習する必要がある量をはるかに超える膨大な量のデータが必要です。ほとんどの場合、モデルが関連する概念を学習する前に、数百または数千のトレーニング データの例をモデルに提供する必要があります。このような豊富なデータはほとんどのアプリケーション シナリオでは利用できないため、これは大きな障害となります。 過去数年間、研究者たちはこの分野で大きな進歩を遂げてきました。この進歩は主に 2 つの側面から生まれます。 1 つは転移学習で、あるタスクで学習した知識を別のタスクに転移するものです。これを自己教師学習と呼ぶこともあります。これは基本的に、明示的にラベル付けされていないデータに教師あり学習手法を適用することです。最近、最初に大量のテキストを収集し、その小さなサブセットを繰り返しサンプリングし、サンプル内のいくつかの単語を隠し、コンテキストに基づいて欠落しているフラグメントを予測するようにモデルをトレーニングするという、人気の自己教師あり言語タスクが注目を集め始めています。これが正しく行われると、明示的なラベルを必要とせずに言語を深く理解するモデルを取得できます。次に、転移学習を通じて、傷害分類の予測など、さまざまな言語処理タスクを対象とするモデルにこの技術を適用できます。すべてがうまくいけば、タスクの自動化に必要なトレーニングデータの量を大幅に削減できる可能性があります。これにより、トレーニング データが不足しているために現在は自動化できない多くのアプリケーション シナリオで、機械学習を導入できるようになります。 私たちが注力しているもう一つの重要な分野は、AI の内外両方に応用できる差分プライバシーです。最近の進歩により、機械学習モデルの共有を可能にしながら、基礎となるトレーニング データの厳格なプライバシー保護を実現する新しいメカニズムが生まれました。ある領域での進歩により、信頼できるデータ収集者間での結果(トレーニング済みの機械学習モデルや統計的推定値など)の自動フローが加速され、同時に基礎となるデータの機密性が向上することが期待されます。 |
<<: 目に見えない戦場の技術である人工知能は、サイバー戦争にどのように応用できるのでしょうか?
>>: アリババDAMOアカデミーがAI分野の権威あるランキングトップ6を獲得:人間の学習方法で人間を超える
9月21日のニュース、水曜日、アマゾンは毎年恒例の新製品発表会で、生成型人工知能技術を統合した一連の...
人工知能業界は急速に発展しており、医療、輸送、家具、電子機器などの業界で関連する応用事例が見つかりま...
2030 年までに RSA 暗号を解読できるマシンが登場するでしょうが、まずは量子センシングやその他...
自動車技術の継続的な向上とインターネット技術の普及に伴い、自動車に付与される機能はますます増えていま...
GPT-4 はまったく推論できません!最近、2 つの研究により、GPT-4 の推論パフォーマンスが...
概要コンピュータサイエンスと数学において、ソートアルゴリズムとは、一連のデータを特定の順序で並べるア...
新たな10年を迎えるにあたり、人々は過去10年間の経験と教訓を活用する必要があります。モバイル アプ...
AIの創造性の限界は何でしょうか?最近、ネットユーザーは、GPT-4 に適切なタイミングで PUA ...
モザイク除去のための人工知能、ディープ CNN デノイザーとモザイク除去のための多層隣接コンポーネン...
機械学習は科学であると同時に芸術でもあります。さまざまな機械学習アルゴリズムを見ると、普遍的な解決策...
現地時間5月7日、米国シアトルでMicrosoft Buildカンファレンスが開催され、マイクロソフ...
OpenAIでの混乱はひとまず終息し、社員たちは忙しく「仕事」をしている。今年初めに OpenAI ...
以前は、Microsoft の Azure OpenAI は企業のみが利用でき、一般ユーザーはうまく...