ソフトウェアの欠陥予測のためのソフトウェア可視化と転移学習の活用

ソフトウェアの欠陥予測のためのソフトウェア可視化と転移学習の活用
論文のデータセットとコードはオープンソース化されています: https://zenodo.org/record/3373409#.YrpiEBVBxHW。

この論文の目的は、ソースコードの中間表現を回避し、ソースコードを画像として表現し、コードの意味情報を直接抽出して、欠陥予測のパフォーマンスを向上させることです。

まず、以下に示す動機の例をご覧ください。 File1.java と File2.java の両方に 1 つの if ステートメント、2 つの for ステートメント、および 4 つの関数呼び出しが含まれていますが、コードの意味と構造上の特徴は異なります。ソース コードを画像に変換すると、異なるコードを区別するのに役立つかどうかを検証するために、著者らは実験を行いました。ソース コードを文字の ASCII 10 進数に従ってピクセルにマッピングし、ピクセル マトリックスに配置して、ソース コードの画像を取得しました。著者らは、ソースコードイメージ間に相違点があることを指摘しています。

図1 動機の例

この記事の主な貢献は次のとおりです。

コードを画像に変換し、そこから意味情報と構造情報を抽出します。

自己注意メカニズムと転移学習を組み合わせて欠陥予測を実現するエンドツーエンドのフレームワークが提案されています。

この記事で提案されているモデル フレームワークは図 2 に示されており、ソース コードの可視化とディープ トランスファー ラーニング モデリングの 2 つの段階に分かれています。

図2 フレームワーク

1. ソースコードの視覚化

この記事ではソースコードを 6 つの画像に変換しており、そのプロセスは図 3 に示されています。ソース コード文字の 10 進 ASCII コードを 8 ビットの符号なし整数ベクトルに変換し、これらのベクトルを行と列に配置して、画像マトリックスを生成します。 8 ビットの整数はグレースケール レベルに直接対応します。元のデータセットが小さいという問題を解決するために、著者は記事の中で、色の強調に基づくデータセット拡張方法を提案しました。R、G、Bの3つの色チャネルの値を並べて組み合わせ、6つのカラー画像を生成します。これはかなり混乱します。チャネル値を変更すると、意味情報と構造情報が変更になるはずですよね?しかし、著者は図 4 に示すように脚注でそれを説明しています。

図3 ソースコードの可視化プロセス

図4 記事脚注2

2. 深層転移学習モデリング

この記事では、DAN ネットワークを使用して、ソース コードの意味情報と構造情報を取得します。モデルの重要な情報を表現する能力を強化するために、著者らは元の DAN 構造に注意レイヤーを追加しました。トレーニングとテストのプロセスを図 5 に示します。ここで、conv1 ~ conv5 は AlexNet からのものであり、4 つの完全接続層 fc6 ~ fc9 は分類器として使用されます。著者は、新しいプロジェクトではディープラーニング モデルのトレーニングに大量のラベル付きデータが必要であり、これは難しいと述べました。そこで、著者はまずImageNet 2012で事前学習済みモデルを学習し、その事前学習済みモデルのパラメータを初期パラメータとしてすべての畳み込み層を微調整し、コード画像とImageNet 2012の画像の差を小さくしました。

図5 トレーニングとテストのプロセス

3. モデルのトレーニングと予測

ソース プロジェクトのラベル付きコードとターゲット プロジェクトのラベルなしコードのコード イメージを生成し、それらを同時にモデルに入力します。2 つのプロジェクトは畳み込み層と注意層を共有して、それぞれの特徴を抽出します。完全に接続されたレイヤーでソースとターゲット間の MK-MDD (マルチカーネルバリアント最大平均不一致) を計算します。ターゲットにはラベルがないため、ソースのクロスエントロピーのみが計算されます。モデルは、損失関数に沿ったミニバッチ確率的勾配降下法を使用してトレーニングされます。各 <ソース、ターゲット> ペアについて、500 エポックのうち、最良の F 値に基づいて 1 つのエポックが選択されます。

実験部分では、著者は PROMISE データ ウェアハウス内のすべてのオープン ソース Java プロジェクトを選択し、そのバージョン番号、クラス名、およびバグがあるかどうかを示すラベルを収集しました。バージョン番号とクラス名に従って、GitHub からソースコードをダウンロードします。最終的に、10 個の Java プロジェクトからのデータが収集されました。データセットの構造を図 6 に示します。

図6 データセットの構造

プロジェクト内の欠陥予測については、この記事では比較のために次のベースライン モデルを選択します。

プロジェクト間の欠陥予測については、この記事では比較のために次のベースライン モデルを選択します。

まとめると、この論文は 2 年前に発表されましたが、そのアイデアはまだ比較的新しいものです。AST などの一連のコード中間表現を回避し、コードを直接画像抽出機能に変換します。しかし、まだ混乱しています。コードから変換された画像には、ソースコードのセマンティクスと構造情報が本当に含まれているのでしょうか?あまり説明できない気がします、ハハハ。後で実験分析を行う必要があります。

<<:  人工知能は医療の未来をどう変えるのか

>>:  あなたは本当に3Dプリントを理解していますか?

推薦する

量子コンピュータ、数学オリンピックのための AI... これらは 2020 年のコンピュータと数学における大きな進歩です

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AMD: Meta はクラウド チップを使用して新しい AI 戦略をサポートします

米国現地時間6月14日火曜日、半導体大手AMDは、市場リーダーのNvidiaに挑戦するため、第4四半...

...

人工知能を活用して機密情報を安全に保つ 5 つの方法

人工知能は企業や消費者にとって非常に便利なツールですが、この技術をどのように活用して機密情報を保護で...

人工知能やロボットによって仕事が奪われた後、人々の収入はどこから来るのでしょうか?考えるための材料

中国の現在の経済社会発展の最大の原動力は科学技術の進歩である。特に米国によるファーウェイとZTEの規...

FacebookがFaissオープンソースリソースライブラリをリリース。精度と効率をトレードすることが機械学習の発展方向となるのか?

[51CTO.com クイック翻訳] 機械学習の分野では、データセット内の類似性を実現するために使...

AIデコードと同じくらい魔法的? AIによるカラーリングはブラックテクノロジーなのか、それとも単なるジョークなのか?

画像処理の分野では、AIブラシがますます目立つようになってきています。以前、AIロスレス画像拡大、A...

人間の言語を話せる人工知能はより価値がある

[[187065]]ここ数年でビッグデータが徐々に登場してきました。しかし、TDWI の調査によると...

強化学習アルゴリズムの分類をさまざまな観点から理解します

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

行列分解はディープラーニングに勝る! MIT が時系列データベース tspDB をリリース: 機械学習に SQL を使用

人類が歴史から学んだ唯一の教訓は、人類は歴史から何も学べないということだ。 「しかし、機械は学習でき...

ゲームAIの課題が進み、リアルタイム戦略ゲームや不完全情報ゲームがホットスポットに

前回の 2 つの記事では、ゲーム AI の歴史におけるいくつかの古典的なアルゴリズムと画期的なイベン...

わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

画像を 3D に変換する方法としては、通常、スコア蒸留サンプリング (SDS) 方式が採用されていま...

...

Omdia の観察: 配車サービスの大手企業が自動運転から撤退するのは幸運か、それとも災いか?

市場調査会社オムディアの最新レポートによると、北米第2位の配車プラットフォームプロバイダーであるLy...