この論文は浙江大学CAD&CG国家重点実験室の視覚化と視覚分析グループが特別にまとめたものです。以下は論文の要約です。 スタンフォード可視化グループを紹介することは非常に重要です。2人の第一人者は、科学的可視化と情報可視化の2つの分野を担当するパット・ハンラハン教授です。彼の名前を知らなくても、今年非常に人気が高まったデータ可視化会社であるTableauはご存知でしょう。彼は共同設立者であり、Tableauは彼のPolarisシステムにネイティブです。もう1人は、近年、情報可視化とヒューマンコンピュータインタラクションの分野で注目のスターであるジェフリー・ヒーアです。彼の論文は革新的かつ実用的で、非常に優れています。 話題に戻ると、この記事では、カラー モデリングのトピックに属する、画像のテーマ カラーを抽出する問題を解決します。この論文の筆頭著者は、同年にEurovis、CHI、SIGGRAPHにカラーモデリングに関する論文を発表しました(SIGGRAPHの論文は現在条件付きで受理されています)。EurovisとCHIはどちらも最優秀論文に数えられ、長年の努力の成果と言えます。 今回は、本題とこの論文に戻りましょう。一般的なテーマの色抽出方法には、ピクセルの色値のクラスタリングと色ヒストグラムのピーク抽出に基づく k-means 法とファジー c-means 法が含まれます。実は、論文のアイデアは複雑ではありません。画像の一連の特徴を定義し、多変量線形回帰モデルLASSOを適用し、クラウドソーシングプラットフォームAmazon Turk Robotにタスクコレクショントレーニングセットを確立します。LASSOはトレーニングセットを学習することで主要な特徴の重みを増やし、冗長な特徴の影響を減らし、より優れたテーマカラー抽出モデルを生成します。以下では、機能定義、回帰モデル、ユーザー調査についてそれぞれ説明します。 実際のところ、テーマカラーの概念は意見の問題です。画像のテーマカラーを判断するときに、1,000 人の視聴者が同じ答えを得ることは不可能ですが、彼らの答えはほとんど似ています。したがって、この記事では、ユーザー定義のテーマ カラーを標準的な回答として使用するのが妥当です。この記事では、各画像に対して k=40 の k-means 法を使用して、画像の 40 色を参照色として計算します。ユーザーは、画像のテーマカラーとして、これらの 40 色の中から 5 色のみを選択できます。 この記事では、次の 6 つの特徴を定義し、79 個の特徴変数を抽出して計算します。以下に簡単に説明します。 視覚的顕著性: この記事では、ユーザーの視線追跡データを使用して、画像内の各ピクセルの視覚的顕著性を定義します。画像内のテーマカラーセットの視覚的顕著性は、テーマカラーが配置されているすべてのピクセルの視覚的顕著性の重ね合わせとして定義されます。同時に、特定の色の視覚的顕著性密度は、重ね合わせ値とピクセル数の比率として定義されます。 カバレッジ エラー: カバレッジ エラーは、画像全体をテーマ カラーで覆った画像と元の画像との間の色誤差として定義されます。ハード エラーとソフト エラーに分けられます。違いは、ピクセルが単一のテーマ カラーで覆われているか、複数のテーマ カラーの線形重ね合わせで覆われているかにあります。同様に、明るさ、彩度、赤緑、青黄、その他のカラー チャネルにおけるピクセルのカバレッジ エラーも定義され、画像がセグメント化された後に領域ごとに計算されたカバレッジ エラーも定義されます。 色の多様性: 色の多様性では、色間の平均、最大、最小の距離を考慮します。 色の不純度: 色の不純度は、テーマカラーに近い上位 5% のピクセル間の距離を考慮します。 色の命名可能性と色の統計: これら 2 つは直感的に聞こえますが、実際には非常に漠然としており、この記事では詳しく紹介されていません。 これら 79 個の機能を定義した後、LASSO が機能します。 LASSO(最小絶対収縮選択演算子)は、従来の多変量線形回帰式に制約条件を追加することで特徴選択の目的を達成する多変量線形回帰法です(下図の式は、LASSOの原文から抜粋したものです)。ここで、x は特徴量、β は特徴量の重みです。制約 t が無限大値の場合、一般的な多変量線形回帰と変わりません。ただし、t が徐々に減少すると、特徴量の重みが圧縮され、冗長な特徴量を削除する選択効果が得られます。 LASSO メソッドを使用してトレーニング セットを学習することにより、定義された 79 個の特徴が非常に限られた数に削減されます。 ここでは、この方法のアイデアと開発についてさらに詳しく紹介します。 ユーザー研究では、著者がこのクラウドソーシング プラットフォームに 40 枚の画像を設定し、各ユーザーに 10 枚の画像を見て、基本色の中から画像の 5 つのテーマ カラーを見つけるというタスクを与えました。さらに、比較のために、著者は 11 人の美術学生に同じ課題を実行させました。 下の図は、画像に対するユーザー調査結果の統計です。ユーザーが選択したテーマカラーは、美術学生のテーマカラーと似ていますが、自動方式で選択されたカラーとはかなり異なることがわかります。 モデリングによって得られたテーマカラーについて、著者はそれが画像の実際のテーマに近いかどうかを判断するためにユーザー調査を実施しました。ユーザーはスコアリングによって判断し、1~5のスコアを付けました。非常に近い場合は5ポイント、非常に異なる場合は1ポイントです。下の図から、モデリングによって得られた色とユーザーグループによって与えられたスコアが広く賞賛されていることがわかります(平均スコアは左上隅にマークされています)。一方、他の 2 つの方法はわずかに劣っています。 最後に、新しい画像のモデリングの比較を見てみましょう。記事方式では、蝶の白い色や海の赤い太陽など、ピクセルカバレッジは低いが視覚的に重要な領域を抽出できることがわかります。 最後に、この記事ではこれら 79 個の特徴の重みを示しており、テーマカラーに基づく画像検索などのアプリケーションで使用できると思われます。しかし、実際には、視覚的な顕著性はユーザーの視線追跡データを通じて取得されるため、視覚的な顕著性のない画像をモデル化することは不可能であり、ユーザビリティが大幅に低下します。この機能が改善されれば、この方法はより広く利用できるようになります。 追加のポイントをいくつか挙げます。 1. この記事は以前にもShiwuzhizhiによって報告されており、このブログ投稿では学術的な観点からこの記事を再検討しています。 2. Eurovis の記事は、データ エンティティ自体のカラー セマンティクスとデザイン要素に対応するカラーとの一貫性に焦点を当てています。たとえば、フルーツ データの場合、ブルーベリーは青、バナナは黄色などになります。興味のある読者は、元の論文を読むことができます。 |
サンノゼ — 2024年2月20日— F5(NASDAQ: FFIV)は先日、アプリケーションセキュ...
[51CTO.com からのオリジナル記事] 7 年間の努力と見事な変貌。 2012年以降、6年連続...
[[228774]]ビッグデータ概要編集者: Wanjun、VVN、Zhang Lijun、Yun...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
「中国の改革開放40年はIT産業の爆発的な成長をもたらしたが、ハイエンドチップは常に輸入に依存してき...
[[314955]]川沿いを頻繁に歩くと、足が濡れてしまいます。決済の兄貴分であるアリペイも小さな...
Foundry の 2023 年 AI 優先事項調査では、組織内で AI および AIGC テクノ...
機械学習がユーザーに真の価値をもたらすためには、それを本番システムに導入する必要があります。 AI ...
論文: 物体検出のための特徴ピラミッドネットワーク論文アドレス: https://arxiv.org...
導入最も普及している IoT デバイスは小型で、電力が限られている傾向があります。これらは、組み込み...
はじめに:国内の求人検索サイトのデータによると、2019年現在、上海の自然言語処理(NLP)関連職種...