AIにソフトウェア開発を教える: IBMオープンソースデータセットProject CodeNetには1,400万のコード例が含まれている

AIにソフトウェア開発を教える: IBMオープンソースデータセットProject CodeNetには1,400万のコード例が含まれている

[[399492]]

Big Blue は、AI ベースのプログラミング ツール向けの充実したトレーニング リソースである ImageNet を作成したいと考えています。

IBM は、機械学習プログラムにコーディングを教えるためのソースコードの膨大なリポジトリを構築しました。

Project CodeNetと呼ばれるこのデータセットには、Java、C、GoからCOBOL、Pascal、FORTRANまで、55を超えるプログラミング言語で合計5億行のコードに相当する1,400万のコード例が含まれています。正直に言うと、コードの 4 分の 3 以上は C++ と Python で書かれています。

ソースコードは、製品版アプリケーションや開発中のアプリケーションから取得したものではなく、日本で開催された 2 つの主要なプログラミング コンテスト、Aizu と AtCoder の参加者が提出したソフトウェアから収集されたものです。これらのコンテストでは、参加者は特定の入力セットを目的の出力セットに変換するために必要なコードを記述する必要があります。コード例の約半分は期待どおりに動作し、残りは不正な解決策、ビルドできない、またはバグがあるとしてマークされました。

たとえば、理想的には、良いプログラムを識別し、悪いプログラムを拒否できる AI ツールをトレーニングします。 700 万のコード例には、入力と目的の出力が含まれています。

IBM は、CodeNet が、コンピューター ビジョン アプリケーションのトレーニングに使用される画像とラベルのデータベースである ImageNet をモデルにし、ソフトウェア開発の青写真 (コードが実際にどのように見えるか、他のコードとどのように比較されるか) をソフトウェアに理解させるための主要なデータセットになることを期待しています。 IBM は、CodeNet を使用して、アプリケーションやライブラリ ソースを検索して必要なルーチンを見つけたり、ある言語から別の言語に翻訳したり、エラーを識別したり実装メカニズムを修正したりできる開発ツールをトレーニングできることを期待しています。

「IBMは、CodeNetがソースコード間の変換やレガシーコードベースを最新のコード言語に変換するための貴重なベンチマークデータセットとして機能し、企業のAI導入を加速させるのに役立つと考えています」とIBMは今週のThinkバーチャルカンファレンスでこのプロジェクトを発表した際に述べた。

IBM と MIT-IBM Watson AI Lab チームは共同でデータセットを開発し、その作業を説明する論文を書き、収集した資料をすべてプロジェクトの GitHub ページ (https://github.com/IBM/Project_CodeNet) に掲載しました。

「このデータセットは、その規模だけでなく、コードの類似性と分類からコード推奨アルゴリズムの進歩、多数のプログラミング言語間のコード変換、コードパフォーマンス改善技術の進歩まで、ベンチマークに役立つプログラミングタスクの多様性においてもユニークです」と研究者らは報告書で結論付けている。

<<:  ロボットは視覚障害者が再び世界を見るのを助ける

>>:  AI、IoT、VR、AR、ブロックチェーン、クラウドコンピューティングで建設業界を変革

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

...

AIopsにおける人工知能

組織にとって、機械学習 (ML)、自動化、人工知能 (AI) 機能を備えたテクノロジー プラットフォ...

...

収穫作業員は月に10万ドルを稼ぐが、誰も雇ってくれないため、英国とオーストラリアの農場はAIに助けを求めている

[[345762]]秋は収穫の季節だが、英国やオーストラリアなどの果樹農家は不安を抱いている。畑では...

...

...

GPT ストアは来週開始され、OpenAI アプリケーションの爆発的な増加が目前に迫っています。最も完全なGPTビルダーユーザーガイドはここにあります

これから起こることは、やがて起こるでしょう! OpenAIが開発者会議で正式発表した「GPTストア」...

2018年に人工知能はどのように発展するでしょうか?世界中のトップ20人の専門家がこう言う

[[216201]]人工知能は2017年に一連の画期的な成果を達成しました。 2018年、人工知能は...

生成型人工知能が経済と社会に与える影響

生成アルゴリズム、事前トレーニング済みモデル、マルチモーダルなどの技術の累積的な統合と反復を経て、人...

「量子超越性」の後、GoogleはTensorFlowの量子バージョンを強力にオープンソース化

Googleは2019年10月に「量子超越性」の検証に関する論文をNatureに掲載した後、3月9日...

冬季オリンピックは人工知能産業の導入を加速し、デジタル経済の徹底的な発展を推進するだろう

人工知能は、この冬季オリンピックに知能の要素を加え、競技の効率とレベルを向上させ、テクノロジーに満ち...

GNN の推奨システムとアプリケーション

1. GNN推奨システムの基礎となる計算能力の進化過去 20 年間にわたり、コンピューティングは進化...

Huyaは人間とシーンの分離技術を使用して、顔を覆わずにスマートな弾丸スクリーンを作成します

【元記事は51CTO.comより】 「(段)幕」という言葉はシューティングゲームから生まれたもので、...