大規模言語モデル (LLM) を含む生成 AI は、エンコード、空間計算、サンプル データ生成、時系列予測、地名認識、画像分類など、多目的なタスク解決機能を備えているため、最近、科学界で大きな関心を集めています。 AI チャットボットは、大規模言語モデル (LLM) を使用して自然言語による会話を生成するテクノロジーです。教育、エンターテイメント、ビジネス、ヘルスケアなど、さまざまな分野で幅広い用途と影響を及ぼしています。 LLM が開発と革新を続けるにつれて、チャットボットの機能とパフォーマンスも継続的に向上し、質疑応答、プログラミング、ライティング、作成など、さまざまな種類のタスクを処理できるようになります。チャットボットは空間タスクをどの程度うまく実行しますか?空間タスクとは、知識、操作、データ取得、マッピング、空間推論、空間リテラシー、地名認識、都市地理、地理情報システム (GIS) の時系列予測に関わるタスクを指し、人類社会、経済、環境の発展と意思決定に大きな意義と価値があります。 空間タスクにおけるチャットボットの機能と限界を調査し評価するために、最近の論文では、4 つの主要な AI チャットボット (ChatGPT-4、Bard、Claude-2、Copilot) の正確性の包括的な比較が行われました。この論文の著者は、米国フロリダ大学およびフロリダ国際大学の Hartwig H. Hochmaira 教授、Levente Juhászb 教授、および Takoda Kempa 博士です。彼らは人工知能とコンピューター ビジョンの分野で著名な専門家であり、多くの高水準の論文やモノグラフを発表しています。この論文では、空間リテラシー、GIS 概念、マッピング、関数解釈、コード解釈、コード生成、コード翻訳の 7 つのカテゴリをカバーする 54 の空間タスクを含む独自構築データセットを使用しました。彼らは、チャットボットの回答の正確さを採点するために人間の専門家を招き、統計的手法を使用してチャットボットの正確さと回答の長さの違いを分析しました。彼らの研究は、地理科学における AI の応用に貴重な洞察と提案をもたらします。 01 チャットボットの全体的なパフォーマンスまず、空間タスクにおけるチャットボットの全体的なパフォーマンス、つまりすべてのタスクにわたる回答の正確性と長さを確認します。正確性は、チャットボットの回答が人間の専門家の標準的な回答と一致しているかどうかを指し、回答の長さは、チャットボットの回答に含まれる単語数を指します。著者は、カイ二乗検定やウィルコクソン順位和検定などの統計的手法を使用して、チャットボットの回答の精度と長さの違いを分析しました。結果は次のとおりです。 正確さの点では、ChatGPT-4 はすべてのタスクで 89.8% の精度を達成し、すべてのチャットボットの中で最も優れたパフォーマンスを発揮しましたが、Bard は最もパフォーマンスが悪く、精度はわずか 59.3% でした。 Claude-2 と Copilot は、それぞれ精度が 69.4% と 71.3% で、中間に位置しています。これらの結果は、ChatGPT-4 が空間タスクで大きな利点を持っている一方で、Bard には大幅な改善が必要であることを示しています。 回答の長さに関して言えば、Copilot はすべてのチャットボットの中で最も簡潔で、空間リテラシーの質問に対する回答の平均語数は 53.5 語でした。一方、Bard は最も長く、平均語数は 116.9 語でした。 ChatGPT-4 と Claude-2 は、平均単語数がそれぞれ 95.1 と 95.2 で、その中間に位置します。これらの結果は、Copilot は宇宙タスクに対してより効率的である一方、Bard はより合理化する必要があることを示唆しています。 これらの結果は、空間タスクにおけるチャットボットのパフォーマンスに大きな違いがあることを示しています。これは、モデル構造、トレーニング データ、微調整方法などの要因に関連している可能性があります。その中で、ChatGPT-4はGPT-4モデルをベースにしたチャットボットです。1,750億のパラメータを持ち、現在利用可能な言語モデルの中で最大規模のものの1つです。テキスト、画像、動画など、さまざまな種類のデータを処理できます。また、地理空間知識グラフを使用して推論することもできます。 Bard は、11 億のパラメータを持つ小規模な言語モデルである BERT モデルをベースにしたチャットボットです。主にテキストデータを処理し、Google 検索エンジンを使用して情報を検索することもできます。 Claude-2 は、Claude モデルに基づくチャットボットです。66 億のパラメータを持つ中規模の言語モデルです。主にテキスト データを処理します。また、情報検索には Bing 検索エンジンを使用することもできます。 Copilot は、120 億のパラメータを持つ大規模な言語モデルである Codex モデルに基づくチャットボットです。主にプログラミングコードを処理します。また、画像生成には DALL-E モデルを使用することもできます。 02 さまざまなタスクカテゴリーにおけるチャットボットのパフォーマンスさまざまなタスク カテゴリでのチャットボットのパフォーマンス、つまり、空間リテラシー、GIS コンセプト、地図作成、関数解釈、コード解釈、コード生成、コード翻訳の 7 つのカテゴリでの精度を見てみましょう。著者はカイ二乗検定などの統計的手法を使用して、タスク カテゴリが正確性に与える影響を分析しました。結果は次のとおりです。 写真 空間リテラシータスクでは、ChatGPT-4 と Copilot がすべてのチャットボットの中で最も優れたパフォーマンスを発揮し、両方ともこのカテゴリで 94.1% の精度を達成しました。一方、Claude-2 は最もパフォーマンスが悪く、精度はわずか 76.5% でした。バードは中間の成績で、正解率は 82.4 パーセントでした。これらの結果は、ChatGPT-4 と Copilot は空間リテラシーの能力が優れているが、Claude-2 は改善する必要があることを示唆しています。 GIS コンセプト タスクでは、ChatGPT-4 と Claude-2 がすべてのチャットボットの中で最も優れたパフォーマンスを発揮し、両方ともこのカテゴリで 100% の精度を達成しました。一方、Bard と Copilot は最もパフォーマンスが悪く、両方とも 75% の精度を達成しました。これらの結果は、ChatGPT-4 と Claude-2 は GIS 概念の精度が高いのに対し、Bard と Copilot は GIS 概念の理解と習熟を強化する必要があることを示しています。 GIS の概念とは、地図投影、空間分析、空間データベース、空間データ モデル、空間データ構造など、地理情報システムに関連する基本的な概念、原則、方法、テクノロジなどを指します。これらの概念は、地理情報システムを理解して使用するために非常に重要であり、宇宙タスクの基礎と前提条件でもあります。チャットボットが GIS の概念を正しく識別して解釈できない場合、マッピング、空間推論、空間操作などのより複雑で高度な空間タスクを完了することは困難になります。したがって、GIS コンセプトにおけるチャットボットの正確性を向上させることが、空間タスクにおけるチャットボットの機能とパフォーマンスを向上させる鍵となります。 マッピングタスクでは、ChatGPT-4 がすべてのチャットボットの中で最も優れたパフォーマンスを発揮し、このカテゴリで 66.7% の精度を達成しました。一方、Bard は 0% の精度で最悪のパフォーマンスを発揮しました。 Claude-2 と Copilot は中間に位置し、精度はそれぞれ 41.7% と 16.7% でした。これらの結果は、ChatGPT-4 がマッピングにおいて強力な能力を持っているのに対し、Bard はこの種のタスクをまったく完了できないことを示しています。 機能説明タスクでは、ChatGPT-4 と Claude-2 がすべてのチャットボットの中で最も優れたパフォーマンスを発揮し、両方ともこのカテゴリで 100% の精度を達成しました。一方、Bard と Copilot は最もパフォーマンスが悪く、両方とも 85.7% の精度を達成しました。これらの結果は、ChatGPT-4 と Claude-2 は機能説明の精度が高い一方で、Bard と Copilot は改善する必要があることを示しています。 コード解釈タスクでは、ChatGPT-4 と Claude-2 がすべてのチャットボットの中で最も優れたパフォーマンスを発揮し、両方ともこのカテゴリで 100% の精度を達成しました。一方、Bard と Copilot は最もパフォーマンスが悪く、精度はそれぞれ 40% と 80% でした。これらの結果は、ChatGPT-4 と Claude-2 はコード解釈能力が優れている一方で、Bard と Copilot は改善の余地があることを示しています。 コード生成タスクでは、ChatGPT-4 がすべてのチャットボットの中で最も優れたパフォーマンスを発揮し、このカテゴリで 75% の精度を達成しました。一方、Claude-2 は最もパフォーマンスが悪く、わずか 25% の精度でした。 Bard と Copilot は中間で、それぞれ 33.3% と 50% の精度でした。これらの結果は、ChatGPT-4 はコード生成能力が優れているのに対し、Claude-2 は大幅に改善する必要があることを示しています。 コード翻訳タスクでも、ChatGPT-4 はすべてのチャットボットの中で最も優れたパフォーマンスを発揮し、このカテゴリでの精度は 80% でした。一方、Bard は精度がわずか 40% で最悪のパフォーマンスでした。 Claude-2 と Copilot は中間に位置し、どちらも精度は 60 パーセントです。これらの結果は、ChatGPT-4 はコード変換において強力な機能を備えているが、Bard には大幅な改善が必要であることを示しています。 さまざまなタスク カテゴリにおけるチャットボットのパフォーマンスには大きな違いがあり、これはモデルの特性、トレーニングの目的、知識ソースなどの要因に関連している可能性があります。 ChatGPT-4 はすべてのタスク カテゴリで最高のパフォーマンスを発揮しますが、これはモデル サイズ、マルチモーダル機能、地理空間知識グラフなどの要因に関連している可能性があります。 Bard はほとんどのタスク カテゴリでパフォーマンスが最も悪く、これはモデル サイズ、テキストの制限、検索エンジンなどに関係している可能性があります。 Claude-2 と Copilot は、モデル構造、検索エンジン、画像生成などの要因に関連して、さまざまなタスク カテゴリで異なるパフォーマンスを発揮します。 03 宇宙ミッションにおけるチャットボットの困難とその理由次に、チャットボットが空間タスクで遭遇する困難と理由、つまり、空間タスクに回答する際にチャットボットが起こすエラーや欠陥の種類と理由について見ていきます。著者らは定性的なアプローチを使用して、チャットボットの応答のエラー分析を実施しました。 空間事実の次元では、チャットボットのエラーは主に知識ベースが不完全または古くなっているために発生し、地名、座標、距離、方向などの正確な地理情報を提供できません。たとえば、Claude-2 と Copilot は、ドイツの A60 高速道路がライン川と交差する都市を正しく識別できませんでした。これは、ナレッジ ベースにこの情報が含まれていなかったか、検索エンジンが関連する結果を見つけられなかったためと考えられます。別の例として、ChatGPT-4 と Claude-2 は、オマーンの世界遺産をすべて正しくリストすることができませんでした。これは、知識ベースが最新のデータで更新されていなかったか、地理空間知識グラフにこの情報が含まれていなかったためと考えられます。 写真 図 2: GPT-4 で生成された Python コードに基づく米国の地図。 空間推論の次元では、チャットボットのエラーは主に論理的能力の不足が原因で、空間操作、並べ替え、比較、計算などを正しく実行することができません。たとえば、Claude-2 は、川の空間特性を理解していないか、正しい空間アルゴリズムを使用していないため、川の方向によって都市を正しく並べ替えることができません。もう 1 つの例として、バードは 2 つの都市間の距離を正しく計算できませんでした。これは、正しい距離の計算式を使用していなかったか、地球の曲率を考慮していなかったためと考えられます。 空間操作の次元では、チャットボットのエラーは主に技術的能力の不足が原因で、サードパーティの API やプログラミング言語を正しく使用してマップ、グラフィックス、コードなどを生成することができません。たとえば、Bard は Mapbox リンクを生成できません。これは、Mapbox サービスにアクセスできないか、Mapbox の使用方法を理解していないことが原因であると考えられます。別の例として、Claude-2 と Copilot は、必要なライブラリを読み込まなかったか、正しい属性とパラメータを使用しなかったため、米国の 5 大都市の人口と位置を示すマップを作成するための正しい Python コードを生成できませんでした。 空間知識の次元では、チャットボットのエラーは主に理解力が不十分なために発生し、空間関連の概念、機能、コードなどを正しく識別して解釈することができません。たとえば、バードは、地図の基本原理を理解していないか、縮尺の定義に注意を払っていないため、大規模な地図と小規模な地図の概念を誤って混同しています。もう 1 つの例として、Copilot が凸包の概念と凹包の概念を誤って混同していることが挙げられます。これは、凸包の定義を理解していないか、凸包の特性に注意を払っていないことが原因である可能性があります。 チャットボットが宇宙タスクで遭遇する理由や困難は数多くありますが、それはチャットボットの知識、論理、技術、理解、その他の能力に関連している可能性があります。その中でも、ChatGPT-4 は空間タスクにおいて最も少ないエラーを生成しました。これは、知識ベースの完全性、論理的能力の強さ、技術的能力の幅広さ、理解の深さなどの要因に関連している可能性があります。バードは宇宙タスクで最も多くのエラーを犯しましたが、これは知識ベースの不完全さ、論理的思考力の不足、技術的能力の狭さ、理解の浅さなどの要因に関連している可能性があります。空間タスクにおいて Claude-2 と Copilot が生成したエラーは異なりますが、これは知識ベースの更新、論理的能力の一貫性、技術的能力の柔軟性、理解能力の正確さなどの要因に関連している可能性があります。 04 チャットボットのメリットとデメリット 次に、空間タスクにおけるチャットボットの長所と短所、つまり空間タスクに回答する際にチャットボットが示す利点と欠点について見ていきます。著者らは定性的なアプローチを使用してチャットボットの応答を評価しました。 チャットボットの利点は、主に、宇宙の課題に対するソリューションを迅速かつ便利かつインテリジェントに提供できること、大量のデータと知識を活用できること、多様なコンテンツを生成できること、ユーザーと自然な会話ができることです。たとえば、ChatGPT-4 は、米国の 5 大都市の人口と位置を示す地図をわずか数秒で生成できます。これは、人間が GIS ソフトウェアを使用して行うよりもはるかに高速です。別の例として、Copilot はユーザーのリクエストに基づいて地理に関する曲を生成することができます。これは、人間が音楽ソフトウェアで行うよりもはるかに簡単です。 チャットボットの欠点は、主に、精度と信頼性が低いこと、理解力と創造力が限られていること、個性と感情が欠如していること、安全性と倫理的なリスクがあることです。たとえば、空間タスクにおける Bard の精度はわずか 59.3% であり、ユーザーの信頼が低下する可能性があります。もう 1 つの例として、Claude-2 は Mapbox リンクを生成するときに経度パラメータが間違っており、これによりユーザーがマップを使用するときに間違った場所にいる可能性があります。 空間タスクにおけるチャットボットの利点と欠点は相互にバランスが取れており、これは設計目標、技術レベル、ユーザーのニーズなどの要因に関連している可能性があります。 ChatGPT-4 は、効率的で多様かつインテリジェントなソリューションを宇宙ミッションに提供できるため、宇宙ミッションにおいて最大の利点を持っていますが、その主な欠点は、その知識と情報が完全に正確またはタイムリーではない可能性があることです。 Bard の最大の欠点は宇宙ミッションにあり、そのソリューションはしばしば不正確で、長く、非効率的ですが、その主な利点は情報検索に Google 検索エンジンを使用できることです。 Claude-2 と Copilot は、宇宙ミッションにおいてさまざまな長所と短所を持っています。宇宙ミッションに対するソリューションは、正確で簡潔かつ効果的な場合もあれば、間違っていて冗長で効果がない場合もあります。主な長所は、Bing 検索エンジンと DALL-E モデルを活用して情報検索と画像生成を行う能力にあります。 写真 図 3: (a) GPT-4 を使用して修正されたマップの位置、(b) Claude-2 を使用してウィーンの Mapbox マップへのリンクを生成するために修正されたマップの位置、(c) GPT-4 を介して生成された Mapbox マップ上でウィーンとミュンヘンを結ぶ線。 05 チャットボットの開発動向と展望最後に、宇宙ミッションにおけるチャットボットの開発動向と展望、つまり、将来どのような改善や革新が見られるのか、そして地理科学分野における人工知能の応用にどのような影響と価値をもたらすのかを見てみましょう。著者は予測的かつ将来的なアプローチを使用して、チャットボットの将来を分析します。 チャットボットの改善は、主に、正確性と信頼性の向上、理解力と創造性の向上、個性と感情の豊かさ、安全性と道徳性の確保を目的としています。たとえば、バードが2023年12月にジェミニプロの高度な機能を統合した後、宇宙ミッションでのパフォーマンスが向上しました。これは、ジェミニプロが画像、ビデオ、サウンドなどのマルチモーダルデータを処理できるようになり、理解力と作成能力が向上したためと考えられます。もう 1 つの例として、ChatGPT-4 は推論に地理空間知識グラフを活用できます。これは、地理空間知識グラフが豊富で正確な地理情報を提供できるため、正確性と信頼性が向上するためと考えられます。 チャットボットのイノベーションは、主に宇宙ミッションのための新しいソリューションの開発、新しい宇宙ミッションのアプリケーションシナリオの探索、新しい宇宙ミッションのユーザーエクスペリエンスの創出、新しい宇宙ミッションの社会的価値の実現に重点を置いています。たとえば、ChatGPT-4 は、米国の 5 大都市の人口と位置を示す地図を生成できます。これは、マッピング プロセスを簡素化および最適化し、マッピングの効率と品質を向上させる新しい空間タスクのソリューションになる可能性があります。もう 1 つの例として、Copilot は地理に関する歌を生成できます。これは、宇宙ミッションの新しい応用シナリオになる可能性があります。地理の教育および娯楽方法を増やし、拡大し、地理をより興味深く魅力的なものにすることができます。 チャットボットの影響は、主に地理科学分野における人工知能の発展と応用を促進し、地理科学分野における人工知能のレベルと貢献を向上させ、地理科学分野における人工知能の影響力と価値を拡大することです。たとえば、ChatGPT-4 は地理空間知識グラフを推論に利用することができ、これは地理科学分野における人工知能の開発と応用を促進する方法となる可能性があります。大量の地理データと知識を統合して活用し、地理的な問題を解決するためのインテリジェントなサポートと支援を提供できます。もう 1 つの例として、Copilot は地理に関する歌を生成することができ、これは地理科学分野における人工知能のレベルと貢献を高める方法となる可能性があります。地理科学分野における人工知能の創造性と美しさを実証し、地理文化の普及に芸術的な表現と鑑賞を提供することができます。 これらの結果から、宇宙ミッションにおけるチャットボットの開発動向と展望は、技術の進歩、ユーザーのニーズ、社会的利益などの要因に関連している可能性のある機会と課題に満ちていることがわかります。その中でも、ChatGPT-4は宇宙ミッションにおいて最も大きな発展の可能性を秘めています。宇宙ミッションにさらに多くのソリューションを提供し、宇宙ミッションのより多くの応用シナリオを模索し、宇宙ミッションのより多くのユーザーエクスペリエンスを生み出し、宇宙ミッションのより多くの社会的価値を実現することができます。その課題は主に安全性と倫理性を確保することです。バードは宇宙ミッションにおいて開発の余地が最も少なく、精度と信頼性を向上させ、理解力と創造性を高め、個性と感情を豊かにする必要がある一方、そのチャンスは主に検索エンジンとマルチモーダル機能を活用することにあります。 Claude-2 と Copilot は、宇宙ミッションにおいて開発の方向性が異なります。モデルの特性、技術的利点、ユーザーからのフィードバックなどの要素に基づいて、的を絞った改善と革新を行う必要がありますが、検索エンジンや画像生成などの機能には、機会と課題が関連しています。 この論文は、2024 年 1 月に International Journal of Geographical Information Science に掲載されました。興味のある読者は、原文を確認したり、データセットをダウンロードして、より詳細な分析と比較を行ったりすることができます。 参照: https://arxiv.org/abs/2401.02404 FlerkenS は、分散型パーソナル AI デジタル価値コンテナであり、データフライホイールを使用してユーザーに境界のないデジタル、インテリジェント、資産サービスを提供する、デジタル経済のための新しい資産キャプチャーおよびコンバーターでもあります。 FlerkenSは、汎用人工知能(AGI)に基づくAIマーケット、AIパブリッシャー、拡張可能なシステムを構築しています。AI-DSLにより、さまざまなタイプと分野のAIアプリケーションとサービスが連携して相互作用することができます。RAGベクトルデータベース(Personal Vector Database)+ Langchainテクノロジーソリューション(Langchain Technology Solution)+大規模モデルの技術実装パスを通じて、ユーザーはパーソナライズされたAIサービスを取得し、分散ネットワーク環境でAIテクノロジーの下でサービスプロバイダーとのポイントツーポイント接続を実現し、インテリジェントエンティティと経済を組み合わせたデジタル全体を構築できます。 PoppleWorld は、Metadevour プラットフォーム上の AI アプリケーションです。AI 技術を使用してユーザーの感情管理を支援し、感情的価値を提供するソーシャル プロダクトです。Web3 分散技術を使用して、ユーザーの感情データを収集し、トークン インセンティブを通じて集約して感情の垂直フィールドを形成する RAG ベクトル データベースを構築します。これを使用して、ユーザーの感情管理を具体的に解決する大規模なモデルをトレーニングし、エージェント技術と組み合わせて感情 AI インテリジェント ボディを形成します。製品にソーシャル要素を組み込むことで、ユーザーの深いインタラクションをサポートし、感情的な価値を提供します。ユーザーのより深いニーズに基づいてユーザーのニーズを正確に把握してマッチングし、ユーザーが自信を持って購入を決定できるように支援し、意識的な情報源に基づいて製品とサービスを提供して、感情と反応を導く価値体系を確立します。これは、人間の認知と行動パターンに基づいた、一般人向けの感情管理 Dapp アプリケーションです。 |
<<: ヴィンセントビデオの「ダークホース」モーフスタジオが登場: 使いやすく、1080P、7秒の長さ、無料
>>: Google、AIロボットが人間に危害を加えないことを保証する「ロボット憲法」を起草
遠隔医療の普及に伴い、便利で効率的な医療サポートを求める患者にとって、オンライン医療相談が第一の選択...
従業員が複雑なタスクに圧倒され、毎日同じ作業を繰り返すうちに徐々に疲れ果てていく一方で、企業も業務プ...
[[343865]] [51CTO.com速訳]調査によると、コロナウイルスの流行により、多くの国と...
1. ビジネスサークル1. BMWがデータ侵害を認める:BMWクラウドストレージサーバーの構成エラー...
GenAI は 2024 年の最大のテクノロジー トレンドとなり、新しいツールのレビュー、インフラス...
[[337082]]最近、グラスゴー大学コンピューティング科学学部のデータサイエンス研究者であるアレ...
序文機械学習(ML)は、教師あり学習、教師なし学習、半教師あり学習などに分けられます。 1.1 教師...
大規模な人工知能 (AI) により、容量とパフォーマンスの面でストレージ インフラストラクチャの水準...
核融合は現在一般的に使用されている核分裂法よりも安全で環境に優しいことはよく知られています。しかし、...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
ほとんどの人がテイクアウトを注文しており、今ではテイクアウトは中国人にとってもう一つの食事方法となっ...
自動化と生成型人工知能 (GenAI) の時代において、「データセンター」の本当の意味を再考する時が...
Star Health と ICICI Lombard は、医療保険契約者に対する請求の事前承認プロ...