論文のデータセットとコードはオープンソース化されています: https://zenodo.org/record/3373409#.YrpiEBVBxHW。 この論文の目的は、ソースコードの中間表現を回避し、ソースコードを画像として表現し、コードの意味情報を直接抽出して、欠陥予測のパフォーマンスを向上させることです。 まず、以下に示す動機の例をご覧ください。 File1.java と File2.java の両方に 1 つの if ステートメント、2 つの for ステートメント、および 4 つの関数呼び出しが含まれていますが、コードの意味と構造上の特徴は異なります。ソース コードを画像に変換すると、異なるコードを区別するのに役立つかどうかを検証するために、著者らは実験を行いました。ソース コードを文字の ASCII 10 進数に従ってピクセルにマッピングし、ピクセル マトリックスに配置して、ソース コードの画像を取得しました。著者らは、ソースコードイメージ間に相違点があることを指摘しています。 図1 動機の例 この記事の主な貢献は次のとおりです。 コードを画像に変換し、そこから意味情報と構造情報を抽出します。 自己注意メカニズムと転移学習を組み合わせて欠陥予測を実現するエンドツーエンドのフレームワークが提案されています。 この記事で提案されているモデル フレームワークは図 2 に示されており、ソース コードの可視化とディープ トランスファー ラーニング モデリングの 2 つの段階に分かれています。 図2 フレームワーク 1. ソースコードの視覚化この記事ではソースコードを 6 つの画像に変換しており、そのプロセスは図 3 に示されています。ソース コード文字の 10 進 ASCII コードを 8 ビットの符号なし整数ベクトルに変換し、これらのベクトルを行と列に配置して、画像マトリックスを生成します。 8 ビットの整数はグレースケール レベルに直接対応します。元のデータセットが小さいという問題を解決するために、著者は記事の中で、色の強調に基づくデータセット拡張方法を提案しました。R、G、Bの3つの色チャネルの値を並べて組み合わせ、6つのカラー画像を生成します。これはかなり混乱します。チャネル値を変更すると、意味情報と構造情報が変更になるはずですよね?しかし、著者は図 4 に示すように脚注でそれを説明しています。 図3 ソースコードの可視化プロセス 図4 記事脚注2 2. 深層転移学習モデリングこの記事では、DAN ネットワークを使用して、ソース コードの意味情報と構造情報を取得します。モデルの重要な情報を表現する能力を強化するために、著者らは元の DAN 構造に注意レイヤーを追加しました。トレーニングとテストのプロセスを図 5 に示します。ここで、conv1 ~ conv5 は AlexNet からのものであり、4 つの完全接続層 fc6 ~ fc9 は分類器として使用されます。著者は、新しいプロジェクトではディープラーニング モデルのトレーニングに大量のラベル付きデータが必要であり、これは難しいと述べました。そこで、著者はまずImageNet 2012で事前学習済みモデルを学習し、その事前学習済みモデルのパラメータを初期パラメータとしてすべての畳み込み層を微調整し、コード画像とImageNet 2012の画像の差を小さくしました。 図5 トレーニングとテストのプロセス 3. モデルのトレーニングと予測ソース プロジェクトのラベル付きコードとターゲット プロジェクトのラベルなしコードのコード イメージを生成し、それらを同時にモデルに入力します。2 つのプロジェクトは畳み込み層と注意層を共有して、それぞれの特徴を抽出します。完全に接続されたレイヤーでソースとターゲット間の MK-MDD (マルチカーネルバリアント最大平均不一致) を計算します。ターゲットにはラベルがないため、ソースのクロスエントロピーのみが計算されます。モデルは、損失関数に沿ったミニバッチ確率的勾配降下法を使用してトレーニングされます。各 <ソース、ターゲット> ペアについて、500 エポックのうち、最良の F 値に基づいて 1 つのエポックが選択されます。 実験部分では、著者は PROMISE データ ウェアハウス内のすべてのオープン ソース Java プロジェクトを選択し、そのバージョン番号、クラス名、およびバグがあるかどうかを示すラベルを収集しました。バージョン番号とクラス名に従って、GitHub からソースコードをダウンロードします。最終的に、10 個の Java プロジェクトからのデータが収集されました。データセットの構造を図 6 に示します。 図6 データセットの構造 プロジェクト内の欠陥予測については、この記事では比較のために次のベースライン モデルを選択します。 プロジェクト間の欠陥予測については、この記事では比較のために次のベースライン モデルを選択します。 まとめると、この論文は 2 年前に発表されましたが、そのアイデアはまだ比較的新しいものです。AST などの一連のコード中間表現を回避し、コードを直接画像抽出機能に変換します。しかし、まだ混乱しています。コードから変換された画像には、ソースコードのセマンティクスと構造情報が本当に含まれているのでしょうか?あまり説明できない気がします、ハハハ。後で実験分析を行う必要があります。 |
自動運転技術は、世界中の大手自動車メーカーの主要な研究開発方向となっています。現在、多くの自動車メー...
産業用仮想世界は、製造業者がすでに進めているデジタル変革を補完できるでしょうか? メタバースについて...
8月24日、市場調査会社ガートナーの最新予測によると、 AI向けハードウェアの世界販売収益は2023...
現在、革命的な変化の波が進行しており、企業が顧客や企業にサービスを提供する方法を変えていると考えられ...
変化だけが唯一不変です。これはあなたのキャリアにも当てはまります。テクノロジーが急速に進化していると...
こんにちは、Xiaozhuangです! PyTorch での自動微分演算に関して、この論文では Py...
[[252981]]ビッグデータダイジェスト制作編纂者:李磊、大潔瓊、雲周過去数年間にブラウザを開い...
GPT-3、CLIP、DALL+などの大規模モデルのニーズや、ニューラル言語モデルに似たスケーリング...
強化学習は、エージェントが環境と対話し、蓄積された報酬を最大化するために最適なアクションを選択する方...
生成 AI は私たちの働き方を変える運命にある驚異的な技術ですが、それは何を実現できるのでしょうか。...
タンパク質と小分子リガンドによって形成される結合複合体は、生命にとって遍在し、不可欠です。科学者は最...
偽の肖像ビデオ生成技術は、政治宣伝、有名人のなりすまし、証拠の捏造、その他のアイデンティティ関連の操...