Big Blue は、AI ベースのプログラミング ツール向けの充実したトレーニング リソースである ImageNet を作成したいと考えています。 IBM は、機械学習プログラムにコーディングを教えるためのソースコードの膨大なリポジトリを構築しました。 Project CodeNetと呼ばれるこのデータセットには、Java、C、GoからCOBOL、Pascal、FORTRANまで、55を超えるプログラミング言語で合計5億行のコードに相当する1,400万のコード例が含まれています。正直に言うと、コードの 4 分の 3 以上は C++ と Python で書かれています。 ソースコードは、製品版アプリケーションや開発中のアプリケーションから取得したものではなく、日本で開催された 2 つの主要なプログラミング コンテスト、Aizu と AtCoder の参加者が提出したソフトウェアから収集されたものです。これらのコンテストでは、参加者は特定の入力セットを目的の出力セットに変換するために必要なコードを記述する必要があります。コード例の約半分は期待どおりに動作し、残りは不正な解決策、ビルドできない、またはバグがあるとしてマークされました。 たとえば、理想的には、良いプログラムを識別し、悪いプログラムを拒否できる AI ツールをトレーニングします。 700 万のコード例には、入力と目的の出力が含まれています。 IBM は、CodeNet が、コンピューター ビジョン アプリケーションのトレーニングに使用される画像とラベルのデータベースである ImageNet をモデルにし、ソフトウェア開発の青写真 (コードが実際にどのように見えるか、他のコードとどのように比較されるか) をソフトウェアに理解させるための主要なデータセットになることを期待しています。 IBM は、CodeNet を使用して、アプリケーションやライブラリ ソースを検索して必要なルーチンを見つけたり、ある言語から別の言語に翻訳したり、エラーを識別したり実装メカニズムを修正したりできる開発ツールをトレーニングできることを期待しています。 「IBMは、CodeNetがソースコード間の変換やレガシーコードベースを最新のコード言語に変換するための貴重なベンチマークデータセットとして機能し、企業のAI導入を加速させるのに役立つと考えています」とIBMは今週のThinkバーチャルカンファレンスでこのプロジェクトを発表した際に述べた。 IBM と MIT-IBM Watson AI Lab チームは共同でデータセットを開発し、その作業を説明する論文を書き、収集した資料をすべてプロジェクトの GitHub ページ (https://github.com/IBM/Project_CodeNet) に掲載しました。 「このデータセットは、その規模だけでなく、コードの類似性と分類からコード推奨アルゴリズムの進歩、多数のプログラミング言語間のコード変換、コードパフォーマンス改善技術の進歩まで、ベンチマークに役立つプログラミングタスクの多様性においてもユニークです」と研究者らは報告書で結論付けている。 |
>>: AI、IoT、VR、AR、ブロックチェーン、クラウドコンピューティングで建設業界を変革
AIは簡単に使えますが、AIを実装するまでの道のりは簡単ではありません。企業が最大限の努力を払ってい...
[[311550]] [51CTO.com クイック翻訳] 人工知能は最新の開発トレンドであり、その...
大学は関連専攻を開設する際に、教授委員会と学術委員会を組織し、国の人材政策、業界の人材需要、国内外の...
本日 Nature 誌に掲載された論文で、IBM Research のポスドク研究員 Stefano...
[[385416]]現在、両セッションは活発に行われており、全国のさまざまな分野の代表者が独自の提...
[[285635]] [51CTO.com クイック翻訳] Algorithmia が最近発表したレ...
IT Homeは1月3日、科学技術部監督管理部門が先月「責任ある研究行為に関するガイドライン(20...
AI コンテンツ分析は、ビデオで取り上げられているトピックや、ビデオ内の登場人物が表現した感情を識別...
ロボット工学の研究者がここ数年で脚付きロボットで成し遂げたことは実に驚くべきことだ。昨年7月、オレゴ...
GPTとはGPT は「Generative Pre-Training」の略で、画像とテキストの入力...
顔認識技術は、スマートシティの安全を維持できる多数のアプリケーションをサポートする能力を備えています...
出典: CreditEase Technology Institute の第 1 回テクニカル サロ...