ディープラーニング（CNN RNN Attention）を使用して大規模なテキスト分類問題を解決する - 概要と実践

[[188373]]

著者は最近、深層学習を応用してタオバオ商品のカテゴリー予測問題を解決するプロジェクトに取り組んでいます。偶然にも、彼の修士論文のタイトルはテキスト分類に関するものでした。この機会に、テキスト分類の分野、特にテキスト分類を解決するための深層学習の応用に関するアイデア、実践、およびいくつかの実践的な経験をまとめたいと思います。

ビジネス問題の説明:

タオバオ商品の典型的な例を下図に示します。図の商品タイトルは「夏用シフォンストライプ半袖Tシャツ女性用、春用半袖服、夏用ミディアムロングスタイル、大きいサイズ（太めmm）、夏用スリミングトップス」です。 Taobao のバックエンドは、数万のリーフカテゴリと数十億の製品を網羅する、ツリー型の多層カテゴリシステムを通じて製品を管理します。私たちのタスクは、製品のタイトルに基づいて製品のリーフカテゴリを予測することです。例の製品が属するカテゴリは、「婦人服/婦人ブティック >> レースシャツ/シフォンシャツ」です。明らかに、これは非常に典型的な短いテキストの多重分類問題です。次に、テキスト分類の従来の方法とディープラーニングの方法を紹介し、最後に実践的な経験を簡単に整理します。

1. 従来のテキスト分類方法

テキスト分類問題は、自然言語処理の分野では非常に古典的な問題です。関連する研究は、専門家のルール (パターン) を使用して分類を実行した 1950 年代にまで遡ります。1980 年代初頭には、知識工学を使用してエキスパートシステムを確立するまでに発展しました。これの利点は、トップの問題を迅速に解決できることですが、上限が非常に低いことは明らかです。時間と労力がかかるだけでなく、カバレッジと精度も非常に限られています。

その後、統計学習法の発展、特にインターネット上のオンラインテキストの成長と1990年代以降の機械学習の台頭により、大規模なテキスト分類問題を解決するための一連の古典的な方法が徐々に形成されました。この段階での主なルーチンは、人工特徴エンジニアリング+浅い分類モデルでした。テキスト分類器のトレーニングのプロセスを次の図に示します。

テキスト分類の問題全体は、特徴エンジニアリングと分類器の 2 つの部分に分かれています。機械学習に興味のある学生は、当然これに非常に精通しています。

1.1 特徴エンジニアリング

特徴エンジニアリングは、機械学習において最も時間と労力がかかる部分であることが多いですが、非常に重要です。機械学習の問題は抽象的に言えば、データを情報に変換し、さらにそれを知識へと洗練させるプロセスです。特徴は「データ→情報」のプロセスであり、結果の上限を決定します。一方、分類器は「情報→知識」のプロセスであり、この上限に近似するものです。ただし、特徴エンジニアリングは分類器モデルとは異なり、汎用性が高くありません。多くの場合、特徴タスクの理解が必要です。

テキスト分類問題が自然に発生する自然言語分野にも独自の特徴処理ロジックがあり、従来のテキスト分類タスクに関する作業のほとんどもここで発生します。テキスト特徴エンジニアリングは、テキスト前処理、特徴抽出、テキスト表現の 3 つの部分で構成されます。最終的な目標は、テキストをコンピューターが理解できる形式に変換し、分類に十分な情報、つまり強力な特徴表現機能をカプセル化することです。

テキスト前処理

テキスト前処理プロセスは、テキストからキーワードを抽出してテキストを表現するプロセスです。中国語のテキスト処理には、主にテキストの分割とストップワードの削除という 2 つの段階が含まれます。単語を分割する理由は、多くの研究で、単語の粒度の方が文字の粒度よりもはるかに優れていることが示されているためです。これは実際には簡単に理解できます。ほとんどの分類アルゴリズムは語順情報を考慮せず、文字の粒度に基づいて「n-gram」情報が明らかに失われすぎているからです。

特に中国語の単語分割では、自然なスペース間隔を持つ英語とは異なり、複雑な単語分割アルゴリズムを設計する必要があります。従来のアルゴリズムには、主に、文字列のマッチングに基づく前方/後方/双方向の最大マッチング、理解に基づく構文および意味分析の曖昧さ解消、統計に基づく相互情報量/CRF 法が含まれます。近年、ディープラーニングの応用により、WordEmbedding + Bi-LSTM + CRF 方式が徐々に主流になってきています。この記事ではテキスト分類に焦点を当てており、それについては詳しく説明しません。ストップワードとは、テキスト分類には意味のない、テキスト内で使用される頻度の高い代名詞、接続詞、前置詞などの単語です。通常、ストップワードリストが維持され、ストップワードリストに現れる単語は、本質的には特徴選択の一部である特徴抽出プロセス中に削除されます。

テキストが分割され、ストップワードが削除されると、Taobao 製品の例のタイトルは、以下に示すように「/」で区切られたキーワードになります。

夏服/シフォン/ストライプ/半袖/Tシャツ/レディース/春/五分袖/洋服/夏/ミディアム丈/大きいサイズ/太め/着痩せ/トップス/夏

テキスト表現と特徴抽出

テキスト表現:

テキスト表現の目的は、前処理されたテキストをコンピュータが理解できる形式に変換することであり、これはテキスト分類の品質を決定する上で最も重要な部分です。従来のアプローチでは、BOW (Bag of Words) モデルやベクトル空間モデルがよく使用されます。最大の欠点は、テキストのコンテキストが無視され、各単語が互いに独立しており、意味情報を表現できないことです。 Bag of Words モデルの例は次のとおりです。

( 0, 0, 0, 0, .... , 1, ... 0, 0, 0, 0)

一般的に言えば、語彙のサイズは少なくとも数百万単位なので、Bag-of-Words モデルには、高い寛容度と高いスパース性という 2 つの大きな問題があります。バッグ・オブ・ワード・モデルはベクトル空間モデルの基礎となるため、ベクトル空間モデルは特徴項目の選択を通じて次元を削減し、特徴の重み計算を通じて密度を高めます。

特徴抽出:

ベクトル空間モデルのテキスト表現方法の特徴抽出は、特徴項目の選択と特徴重みの計算という 2 つの部分に対応します。特徴選択の基本的な考え方は、元の特徴項目（用語）を一定の評価指標に従って独立してスコアリングして並べ替え、最も高いスコアを持つ特徴項目を選択し、残りを除外することです。一般的に使用される評価には、文書頻度、相互情報量、情報ゲイン、χ² 統計などがあります。

特徴の重み付けは、主に古典的な TF-IDF 法とその拡張法に基づいています。主な考え方は、単語の重要性はカテゴリ内での単語の頻度に比例し、すべてのカテゴリでの出現回数に反比例するというものです。

意味ベースのテキスト表現

従来のテキスト表現方法には、ベクトル空間モデルのほか、LDAトピックモデルやLSI/PLSI確率的潜在意味索引などの意味ベースのテキスト表現方法もあります。これらの方法で得られるテキスト表現は、文書の深層表現とみなすことができると一般的に考えられており、単語埋め込みテキスト分散表現法は、以下に示す深層学習方法の重要な基礎となっています。

1.2 分類器

分類器は基本的に統計的な分類方法です。基本的に、ナイーブベイズ分類アルゴリズム（Naïve Bayes）、KNN、SVM、最大エントロピー、ニューラルネットワークなど、ほとんどの機械学習手法がテキスト分類の分野に適用されます。従来の分類モデルはこの記事の焦点ではないため、ここでは詳しく説明しません。

2. ディープラーニングによるテキスト分類法

上記の記事では、従来のテキスト分類方法を紹介しています。従来の方法の主な問題は、テキスト表現が高次元かつスパースであり、特徴表現能力が非常に弱く、ニューラルネットワークがそのようなデータの処理に適していないことです。さらに、手動の特徴エンジニアリングが必要であり、非常にコストがかかります。ディープラーニングが当初、画像と音声で大きな成功を収めた重要な理由の 1 つは、元の画像と音声のデータが連続的で密度が高く、局所的な相関関係があることです。大規模なテキスト分類問題を解決するためにディープラーニングを適用する上で最も重要なことは、テキスト表現の問題を解決し、CNN/RNN などのネットワーク構造を使用して特徴表現機能を自動的に取得し、複雑な手動の特徴エンジニアリングを排除し、エンドツーエンドで問題を解決することです。次に紹介するのは、

2.1 テキストの分散表現: 単語の埋め込み

分散表現は、実際には 1986 年に Hinton によって初めて提案されました。基本的な考え方は、各単語を n 次元の密な連続実数ベクトルとして表現することです。対照的に、ワンホットエンコーディングベクトル空間には 1 つの次元のみがあり、その次元は 1 で、残りは 0 です。分散表現の最大の利点は、非常に強力な特徴表現能力を備えていることです。たとえば、各次元に k 個の値を持つ n 次元ベクトルは、kn 個の概念を表現できます。実際、ニューラルネットワークの隠し層であっても、複数の潜在変数の確率的トピックモデルであっても、分散表現が適用されます。次の図は、2003 年の Bengio の「A Neural Probabilistic Language Model」のネットワーク構造です。

この記事で提案されているニューラルネットワーク言語モデル (NNLM) は、テキストの分散表現を使用します。つまり、各単語は密な実数ベクトルとして表現されます。 NNLM モデルの目標は、言語モデルを構築することです。

単語の分散表現、つまり単語埋め込みは、言語モデル、つまり図のマトリックス C をトレーニングすることで得られる追加の成果物です。

Hinton は 1986 年に単語の分散表現を提案し、Bengio は 2003 年に NNLM を提案しましたが、単語ベクトルが本当に普及したのは、Google Mikolov が 2013 年に「Efficient Estimation of Word Representations in Vector Space」と「Distributed Representations of Words and Phrases and their Compositionality」という 2 つの word2vec 記事を発表してからでした。さらに重要なのは、彼がシンプルで使いやすい word2vec ツールキットをリリースしたことです。これは意味論の面で十分に検証されており、テキスト分析の進歩を大きく促進しました。下の図は、論文で提案されている CBOW と Skip-Gram という 2 つのモデルの構造を示しています。これらは基本的に NNLM に似ています。違いは、モデルが非線形隠れ層を削除し、予測対象が異なることです。CBOW はコンテキストワードに基づいて現在の単語を予測しますが、Skip-Gram はその逆を行います。

さらに、計算効率の問題を効果的に解決するために、階層的ソフトマックスとネガティブサンプルという 2 つの方法が提案されました。実際、これら 2 つの方法には厳密な理論的証明はありませんが、いくつかのトリックがあり、非常に実用的です。詳細なプロセスについては説明しません。word2vec についてさらに深く理解したい場合は、この非常に優れた論文「word2vec パラメータ学習の説明」を読むことをお勧めします。もう 1 つ言及しておくべきことは、word2vec によって学習されたベクトルと実際のセマンティクスの間にはギャップがあるということです。より多く学習されるのは、類似したコンテキストを持つ単語です。たとえば、「good」と「bad」も非常に似ています。逆に、テキスト分類タスクでは、教師ありセマンティクスを入力することで、より優れたセマンティクス表現を学習できます。機会があれば、後で私のシステムを共有します。

この時点で、テキストの表現は、単語ベクトルの表現を通じて、ニューラルネットワークが処理するのが難しい高次元で非常にスパースなデータから、画像や音声に似た連続的で高密度なデータへとテキストデータを変換します。ディープラーニングアルゴリズム自体は強力なデータ転送性を備えています。CNN など、以前は画像分野に非常に適していた多くのディープラーニングアルゴリズムは、テキスト分野にもうまく移行できます。次のセクションでは、テキスト分類の分野におけるディープラーニング手法について詳しく説明します。

2.2 ディープラーニングテキスト分類モデル

単語埋め込みはテキスト表現の問題を解決します。このセクションで紹介するテキスト分類モデルは、CNN/RNN などのディープラーニングネットワークとそのバリエーションを使用して、自動特徴抽出 (つまり、特徴表現) の問題を解決します。

ファストテキスト

FastText は、前述の word2vec の作者である Mikolov 氏が Facebook に移籍した後、2016 年 7 月に発表した「Bag of Tricks for Efficient Text Classification」というタイトルの論文です。 FastText がここに掲載されているのは、テキスト分類の主流のアプローチだからではなく、非常にシンプルだからです。モデル図を以下に示します。

原理としては、文中のすべての単語ベクトルを平均化し（ある意味では、1つの平均プーリング専用CNNとして理解することもできます）、その後、ソフトマックス層に直接接続します。実際、この記事では、ローカルシーケンス情報を取得するための n-gram 機能のトリックもいくつか追加されています。この記事には多くの情報が含まれていないため、「水テキスト」とみなすことができ、テキスト分類の問題はいくつかの「線形」問題の一部であると考えられます（Xiang Liangより）。つまり、多くの分類情報を取得するために、あまり多くの非線形変換や特徴の組み合わせを行う必要はなく、いくつかのタスクは単純なモデルでも解決できます。

テキストCNN

この記事のタイトル画像は、2014年にこの記事で提案された TextCNN の構造を使用しています (下図参照)。 fastText のネットワーク結果では語順情報がまったく考慮されておらず、そこで使用される n-gram 機能トリックはローカルシーケンス情報の重要性を示すだけです。畳み込みニューラルネットワーク（CNN）は、当初は画像の分野で大きな成功を収めました。ここではCNNの原理については説明しません。核心は、局所的な相関関係を捉えることができることです。具体的には、テキスト分類タスクでは、CNNを使用して文章内のnグラムなどの重要な情報を抽出できます。

TextCNN の詳細なプロセス図を以下に示します。

TextCNN の詳細なプロセス: 最初のレイヤーは、図の左側にある 7 x 5 の文のマトリックスです。各行は 5 次元の単語ベクトルで、画像内の元のピクセルと比較できます。次に、filter_size=(2,3,4) の 1 次元畳み込み層を通過し、各 filter_size には 2 つの出力チャネルがあります。 3 番目の層は 1-max プーリング層であり、異なる長さの文をプーリング層を通過した後に固定長表現に変換できます。最後に、完全に接続されたソフトマックス層が接続され、各カテゴリの確率を出力します。

特徴: ここでの特徴は、静的または非静的である単語ベクトルです。静的手法では、word2vec などの事前学習済みの単語ベクトルを使用します。単語ベクトルは学習プロセス中に更新されません。本質的には転移学習に属します。特にデータ量が比較的少ない場合、静的単語ベクトルを使用すると良い結果が得られることが多いです。非静的では、トレーニングプロセス中に単語ベクトルが更新されます。推奨される方法は、非静的での微調整方法で、単語ベクトルを事前トレーニング済みの word2vec ベクトルで初期化します。トレーニング中に単語ベクトルを調整すると、収束を加速できます。もちろん、十分なトレーニングデータとリソースがある場合は、単語ベクトルを直接ランダムに初期化することも可能です。

チャネル: 画像では、(R、G、B) を異なるチャネルとして使用できますが、テキストの入力チャネルは通常、異なる埋め込み方法 (word2vec や Glove など) です。実際には、静的な単語ベクトルと微調整単語ベクトルも異なるチャネルとして使用されます。

1次元畳み込み（conv-1d）：画像は2次元データであり、単語ベクトルで表現されるテキストは1次元データであるため、TextCNN畳み込みでは1次元畳み込みが使用されます。 1 次元畳み込みの問題は、異なる幅の視野を得るために、異なる filter_sizes を持つフィルターを設計する必要があることです。

プーリング層: CNN を使用してテキスト分類問題を解決する記事はまだたくさんあります。たとえば、この記事「文をモデル化する畳み込みニューラルネットワーク」で最も興味深い入力は、プーリングを (動的) k-max プーリングに変更することです。プーリングステージでは、k 個の最大情報とグローバルシーケンス情報が保持されます。たとえば、感情分析のシナリオでは、次のようになります。

「ここの景色はなかなか良いと思うけど、人が多すぎる。」

テキストの前半はポジティブな感情を反映していますが、全体的なテキストはネガティブな感情を表現しています。K-max プーリングは、この情報をうまく捉えることができます。

テキストRNN

TextCNN は多くのタスクで優れたパフォーマンスを発揮しますが、CNN の最大の問題は、filter_size の視野が固定されていることです。一方では、より長いシーケンス情報をモデル化できず、他方では、filter_size のハイパーパラメータ調整も面倒です。 CNN の本質はテキストの特徴を表現することですが、自然言語処理では、文脈情報をより適切に表現できるリカレントニューラルネットワーク (RNN) がより一般的に使用されています。特にテキスト分類タスクでは、双方向 RNN (実際には双方向 LSTM が使用される) は、可変長かつ双方向の「n-gram」情報を取得できるという意味で理解できます。

双方向 LSTM は、自然言語処理の分野における標準的なネットワークです。シーケンスラベル付け/名前付きエンティティ認識/seq2seq モデルなど、多くのシナリオで使用されています。次の図は、分類問題に対する Bi-LSTM のネットワーク構造原理の概略図です。黄色のノードは、それぞれ順方向 RNN と逆方向 RNN の出力です。例では、最後の単語の結果が、完全接続層のソフトマックス出力に直接接続されています。

テキストRNN + 注意

CNN と RNN はテキスト分類タスクでは効果的ですが、どちらも 1 つの欠点があります。それは、特に悪いケースを分析するときに、直感性が足りず、解釈性が低いことです。注意メカニズムは、自然言語処理の分野で一般的に使用されている長期記憶モデリングメカニズムであり、各単語が結果にどの程度貢献しているかを直感的に伝えることができ、基本的にSeq2Seqモデルの標準機能となっています。実は、テキスト分類はある意味 Seq2Seq の特殊な種類として理解できるため、最近 Attention メカニズムの導入を検討しました。調査したところ、学術界でも同様の実践があることがわかりました。

注意メカニズムの紹介:

Attention の詳細な紹介には、おそらく短い記事が必要になるでしょう。興味のある方は、2014 年の論文「NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE」を参照してください。

機械翻訳を例に簡単に紹介します。下の図では、xt はソース言語の単語、yt はターゲット言語の単語であり、機械翻訳のタスクは、ソースシーケンスが与えられたときにターゲットシーケンスを取得することです。 tの翻訳プロセスは、前の単語yt-1とソース言語の単語hjの表現（xjのbi-RNNモデルの表現）に依存し、各単語の重みは異なります。たとえば、ソース言語が中国語の「I/am/Chinese」で、ターゲット言語が「i/am/Chinese」である場合、「Chinese」の翻訳は明らかに「Chinese」に依存しており、「I/am」とはほとんど関係がありません。以下の式において、αij は i 番目の英語単語を翻訳する際の j 番目の中国語単語の貢献度、つまり注目度です。どうやら「中国語」を翻訳する場合、「中国語」の注目度が非常に高いようです。

Attention の核心は、各ターゲット単語を翻訳するために使用されるコンテキスト (または製品タイトルのテキストが属するカテゴリを予測するコンテキスト) が異なることであり、このような考慮は明らかにより合理的です。

TextRNN + 注意モデル:

この記事「文書分類のための階層的アテンションネットワーク」を参考にしました。下の図はモデルのネットワーク構造図です。一方では階層構造で文書の構造を保持し、他方では単語レベルと文レベルで文書の構造を保持します。 Taobao のタイトルシナリオでは、単語レベルの注意のみが必要です。

Attention を追加することによる最大のメリットは、当然ながら、分類カテゴリに対する各文と単語の重要性を直感的に説明できることです。

テキストRCNN (テキストRNN + CNN)

2015 年に中国科学院が AAAI に発表した論文「テキスト分類のための再帰型畳み込みニューラルネットワーク」の構造を参照します。

前方および後方 RNN を使用して、各単語の前方および後方のコンテキスト表現を取得します。

このようにして、単語の表現は単語ベクトルと前方および後方のコンテキストベクトルの連結になります。つまり、次のようになります。

最後に、TextCNN と同じ畳み込み層とプーリング層を接続します。唯一の違いは、畳み込み層の filter_size = 1 で十分であることです。より大きな視野を得るために、より大きな filter_size は必要なくなります。ここでの単語表現も、双方向 RNN のみで出力できます。

3. ある程度の経験

理論と実践の間には大きなギャップがあることがよくあります。学術論文では、モデルアーキテクチャ設計の斬新さ、さらに重要なことに、新しいアイデアに重点が置かれていますが、実践で最も重要なことは実装シナリオでの効果であり、焦点と方法が異なります。この部分では、実際のプロジェクトプロセスから得られたいくつかの教訓を簡単にまとめます。

モデルは明らかに最も重要なものではありません。良い結果を得るためには良いモデル設計が不可欠であることは否定できませんし、学術研究でも注目されている話題です。しかし、実際に使用すると、モデルのワークロードは実際には比較的短い時間しかかかりません。パート 2 では 5 つの CNN/RNN モデルとそのバリエーションが紹介されていますが、実際には、テキスト分類タスクで非常に優れた結果を得るには CNN だけで十分です。実験テストでは、RCNN によって精度が約 1% 向上することが示されていますが、これはそれほど大きな差ではありません。ベストプラクティスは、まず TextCNN モデルを使用して全体的なタスクのパフォーマンスを最適化し、次にモデルの改善を試みることです。

データを理解する: ディープラーニングを適用する大きな利点の 1 つは、面倒で非効率的な手動の特徴エンジニアリングが不要になることですが、それをブラックボックスとして扱うだけでは、必然的に人生に疑問を抱くことが多くなります。必ずデータを理解し、従来の方法やディープラーニングの方法に関係なく、データセンスが常に非常に重要であることを忘れないでください。データが適切かどうか、またそれがなぜ正しいか間違っているかを理解するために、バッドケース分析に注意してください。

反復品質に焦点を当てる - 各実験を記録して分析します。反復速度は、アルゴリズムプロジェクトの成功または失敗の鍵となります。確率を学んだ学生なら、これに容易に同意するでしょう。アルゴリズムプロジェクトにとって重要なのは、反復速度だけでなく、反復品質でもあります。迅速な実験分析のルーチンを構築しなければ、どれだけ速く反復しても、貴重なコンピューティングリソースを無駄にしてしまうことになります。各実験を記録し、実験分析で少なくとも 3 つの質問に答えることをお勧めします: なぜ実験を行うのですか? 結論は何ですか? 実験の次のステップは何ですか?

ハイパーパラメータ調整: ハイパーパラメータ調整は、パラメータ調整エンジニアにとって日常的な作業です。テキスト分類の実践に関する論文「文分類のための畳み込みニューラルネットワークの感度分析 (および実践ガイド)」をお勧めします。この論文には、ハイパーパラメータの比較実験がいくつか含まれています。テキスト分析タスクを始めたばかりの場合は、この記事の結果に従ってハイパーパラメータを設定するとよいでしょう。ハイパーパラメータ調整をできるだけ早く取得する方法は、実は非常に重要な問題です。Xiao Se の記事「Deep Learning Network パラメータ調整スキル - Zhihu コラム」をお読みください。

ドロップアウトを使用する必要があります。ドロップアウトを使用する必要がない状況が 2 つあります。データ量が非常に少ない場合、または BN などのより優れた正規化方法を使用する場合です。実際には、さまざまなドロップアウトパラメータを試しましたが、最適だったのは 0.5 でした。そのため、コンピューティングリソースが限られている場合は、デフォルトの 0.5 を選択するのが適切です。

微調整は必須です。前述のように、特徴表現として word2vec でトレーニングされた単語ベクトルのみを使用すると、効果が大幅に失われると思います。

Softmax 損失は必ずしも必要ではありません。これはデータによって異なります。相互に排他的ではない複数のカテゴリをトレーニングすることがタスクである場合は、複数のバイナリ分類器をトレーニングしてみてください。調整後も、精度は 1% 以上向上しました。

カテゴリの不均衡の問題: これは基本的に多くのシナリオで検証された結論です。損失が一部のカテゴリによって支配されている場合、それは全体にとってほとんどマイナスになります。 boosttrap と同様の方法を使用して損失のサンプル重みを調整することで、問題を解決することをお勧めします。

トレーニングショックを回避する: デフォルトでは、データ分布を可能な限り iid にするために、ランダムサンプリング係数を増やす必要があります。デフォルトのシャッフルメカニズムにより、トレーニング結果をより安定させることができます。トレーニング済みのモデルがまだ振動する場合は、学習率または mini_batch_size を調整することを検討してください。

収束する前に結論を出しすぎないでください。最後までプレイした人が最善です。特に新しい角度からのテストの場合は、簡単に否定せず、少なくとも収束するまで待ってください。

4. 最後に

数年前、アリババでキャンパスリクルートメントの面接を受けたとき、1回目と2回目の面接はどちらもテキスト分類プロジェクト（Sina Weiboトピック分類に関する学校プロジェクト）に関するもので、記事で紹介されている従来のアプローチを使用しました。面接中、私は特徴項目処理とさまざまな分類器に非常に精通しており、ホワイトボードにいくつかの特徴選択式を書くように求められました。わずか数年で、従来の方法ははるかに上回っています。ディープラーニングの発展にはため息をつくしかありません。

一方で、今日のテクノロジーの発展が急速に進んでいることは嘆くに値します。古いやり方に固執するのは絶対に望ましくありません。理解していない理論がまだたくさんあることはわかっていますし、論文を深く読み続ける必要があります。その一方で、理論原理を理解することとプロジェクトをうまく行うことの間には、特に業界の同僚にとっては大きな隔たりがあります。学術界は深く掘り下げる価値がありますが、いつ止めるべきかを知っておく必要があります。技術的な深みだけを追い求めれば、必然的に空中の建物に落ちてしまいます。

<<: チャットボットにおける2つの技術的火種: AIと機械学習

>>: OpenCV における KMeans アルゴリズムの紹介と応用