ソフトウェアの欠陥予測のためのソフトウェア可視化と転移学習の活用

論文のデータセットとコードはオープンソース化されています: https://zenodo.org/record/3373409#.YrpiEBVBxHW。

この論文の目的は、ソースコードの中間表現を回避し、ソースコードを画像として表現し、コードの意味情報を直接抽出して、欠陥予測のパフォーマンスを向上させることです。

まず、以下に示す動機の例をご覧ください。 File1.java と File2.java の両方に 1 つの if ステートメント、2 つの for ステートメント、および 4 つの関数呼び出しが含まれていますが、コードの意味と構造上の特徴は異なります。ソースコードを画像に変換すると、異なるコードを区別するのに役立つかどうかを検証するために、著者らは実験を行いました。ソースコードを文字の ASCII 10 進数に従ってピクセルにマッピングし、ピクセルマトリックスに配置して、ソースコードの画像を取得しました。著者らは、ソースコードイメージ間に相違点があることを指摘しています。

図1 動機の例

この記事の主な貢献は次のとおりです。

コードを画像に変換し、そこから意味情報と構造情報を抽出します。

自己注意メカニズムと転移学習を組み合わせて欠陥予測を実現するエンドツーエンドのフレームワークが提案されています。

この記事で提案されているモデルフレームワークは図 2 に示されており、ソースコードの可視化とディープトランスファーラーニングモデリングの 2 つの段階に分かれています。

図2 フレームワーク

1. ソースコードの視覚化

この記事ではソースコードを 6 つの画像に変換しており、そのプロセスは図 3 に示されています。ソースコード文字の 10 進 ASCII コードを 8 ビットの符号なし整数ベクトルに変換し、これらのベクトルを行と列に配置して、画像マトリックスを生成します。 8 ビットの整数はグレースケールレベルに直接対応します。元のデータセットが小さいという問題を解決するために、著者は記事の中で、色の強調に基づくデータセット拡張方法を提案しました。R、G、Bの3つの色チャネルの値を並べて組み合わせ、6つのカラー画像を生成します。これはかなり混乱します。チャネル値を変更すると、意味情報と構造情報が変更になるはずですよね?しかし、著者は図 4 に示すように脚注でそれを説明しています。

図3 ソースコードの可視化プロセス

図4 記事脚注2

2. 深層転移学習モデリング

この記事では、DAN ネットワークを使用して、ソースコードの意味情報と構造情報を取得します。モデルの重要な情報を表現する能力を強化するために、著者らは元の DAN 構造に注意レイヤーを追加しました。トレーニングとテストのプロセスを図 5 に示します。ここで、conv1 ～ conv5 は AlexNet からのものであり、4 つの完全接続層 fc6 ～ fc9 は分類器として使用されます。著者は、新しいプロジェクトではディープラーニングモデルのトレーニングに大量のラベル付きデータが必要であり、これは難しいと述べました。そこで、著者はまずImageNet 2012で事前学習済みモデルを学習し、その事前学習済みモデルのパラメータを初期パラメータとしてすべての畳み込み層を微調整し、コード画像とImageNet 2012の画像の差を小さくしました。

図5 トレーニングとテストのプロセス

3. モデルのトレーニングと予測

ソースプロジェクトのラベル付きコードとターゲットプロジェクトのラベルなしコードのコードイメージを生成し、それらを同時にモデルに入力します。2 つのプロジェクトは畳み込み層と注意層を共有して、それぞれの特徴を抽出します。完全に接続されたレイヤーでソースとターゲット間の MK-MDD (マルチカーネルバリアント最大平均不一致) を計算します。ターゲットにはラベルがないため、ソースのクロスエントロピーのみが計算されます。モデルは、損失関数に沿ったミニバッチ確率的勾配降下法を使用してトレーニングされます。各 <ソース、ターゲット> ペアについて、500 エポックのうち、最良の F 値に基づいて 1 つのエポックが選択されます。

実験部分では、著者は PROMISE データウェアハウス内のすべてのオープンソース Java プロジェクトを選択し、そのバージョン番号、クラス名、およびバグがあるかどうかを示すラベルを収集しました。バージョン番号とクラス名に従って、GitHub からソースコードをダウンロードします。最終的に、10 個の Java プロジェクトからのデータが収集されました。データセットの構造を図 6 に示します。

図6 データセットの構造

プロジェクト内の欠陥予測については、この記事では比較のために次のベースラインモデルを選択します。

プロジェクト間の欠陥予測については、この記事では比較のために次のベースラインモデルを選択します。

まとめると、この論文は 2 年前に発表されましたが、そのアイデアはまだ比較的新しいものです。AST などの一連のコード中間表現を回避し、コードを直接画像抽出機能に変換します。しかし、まだ混乱しています。コードから変換された画像には、ソースコードのセマンティクスと構造情報が本当に含まれているのでしょうか?あまり説明できない気がします、ハハハ。後で実験分析を行う必要があります。

<<: 人工知能は医療の未来をどう変えるのか

>>: あなたは本当に3Dプリントを理解していますか?