90年代以降の世代は、分野を超えてNLPを独学で学び、オープンソースライブラリHanLPを作成しました。このライブラリはGitHubで15,000個のスターを獲得しています。

2019 年 10 月末時点で、HanLP と呼ばれる自然言語処理ライブラリが GitHub で 15.5K スターを獲得し、ペンシルバニア大学の NLTK、スタンフォード大学の CoreNLP、ハルビン工科大学の LTP を上回りました。これは、一連のモデルとアルゴリズムで構成される自然言語処理 (NLP) 開発ツールキットです。

この NLP ツールキットが開発された当時、その作者である He Han 氏がまだ日本語を専攻する 2 年生だったとは想像もできないかもしれません。現在、He Han 氏は博士号取得を目指しながら、初心者が NLP を始める際の問題を解決することを目指して、「自然言語処理入門」という別の本を執筆しました。この本は、Zhou Ming、Liu Qun、Wang Bin など、業界のトップ NLP 専門家によって推奨されています。

「理論は根であり、プロジェクトは木です。」HanLP が木だとすると、この「自然言語処理入門」という本はその木の基礎です。この本の出版を機に、AI FrontlineはHe Han氏と対談し、この非常に才能のある学生が「木を植え」、「根を育てている」物語を聞きました。

ゲームに夢中になり、プログラミングのキャリアをスタートしました

1990年代に生まれた多くの人々と同様に、He Han はアニメとゲームが大好きです。これら二つの趣味は、後に彼の人生における二つの最も重要な決断に深く影響を及ぼしました。

高校生の時、何漢さんは黄岡中学校のトップクラスの理科クラスに在籍していました。クラスは優秀な生徒でいっぱいでしたが、何漢さんは自分が彼らにはるかに遅れていると感じていました。「私は決して成績優秀な生徒ではありません。平均点が80点くらいで、ばらつきが非常に大きいタイプです。」

彼は笑いながら、子供の頃から講義は好きではなかったと言いました。一人で本を読んだり練習問題を解いたり、椅子に座って空想にふけったりしていました。彼はいくつかの試験で非常に優秀な成績を収め、「トップクラス」に入学しました。しかし、彼は最も重要な大学入試で良い成績を残せませんでした。

大学入試に失敗したことで、何漢さんは「自分を解放して」好きな専攻を選ぶ決心をした。彼はアニメが好きなので、願書に記入する際に専攻として日本語を選択しました。 2011年、何漢さんは上海外国語大学日本語学部の学生になりました。彼の余暇は、新しいアニメを見たり、単語を覚えたり、家でゲームをしたりすることに費やされていることが多い。

ゲームをプレイすることが、He Han がプログラミングの道に進んだ最初の動機でした。彼は本当に自分でゲームを作りたかったのです。 He Han 氏はかつて「剣と妖精の伝説 IV」をプレイすることに夢中になり、そのための「MOD」を作りたいと考えていた時期がありました。

また、その頃から、He Han は C++、Windows プログラミング、3D プログラミング、アセンブリリバースエンジニアリング、PHP、JavaScript、Linux など、さまざまなプログラミング知識を学ぼうと努め始めました。専門的な訓練を受けていない人にとって、独学への道は必ず困難に遭遇するでしょう。何漢氏は、最大の困難はオペレーティングシステムやコンパイラの原理などの専門コースを体系的に学ぶ機会がなかったことだと認めた。彼にはデバッグという非常に実用的な学習方法があります。

He Han は強力なデバッグスキルを持っています。「どんなアルゴリズムでも、誰のコードでも、1 行ずつデバッグできます。自分が書いたアルゴリズムが間違っているときは、常に同じ入力データを作成し、デバッガーウィンドウを 2 つ開きます。1 つは自分のコードを実行するため、もう 1 つは他の人のコードを実行するためです。私の知識のほとんどは、他の人のコードのデバッグから得たものです。私は、すべての人から「学んだ」と言えます。」

何漢氏に最も感銘を与えたのは、独学でプログラミングを学んでいるときに達成した小さな成果でした。当時、上海外国語大学のキャンパスネットワークはウェブベースのログインのみをサポートしていたため、開くのが遅く、ログイン時にパスワードを思い出すことができず、非常に不便でした。この問題を解決するために、He Han 氏は労働者の日休暇を利用して自動ログインソフトウェアを作成しました。今振り返ってみると、このソフトウェアにはまだ多くの欠点があるとHe Han氏は認めているが、クラスメートたちはこのソフトウェアをとても喜んで使っている。

この小さな成果は、何漢氏に予期せぬ驚きを与えた。この話を聞いた学校のネットワーク技術センターの張さんは彼にとても感銘を受け、キャンパスネットワークのVIPを彼に与え、アウトソーシング会社であるLinyuan Technologyでのアルバイトを紹介しました。

2年生の時にNLPライブラリを開発しました

このアルバイトを通じて、He Han 氏は自然言語処理 (NLP) との切っても切れない関係を築くことになり、それが彼の現在の博士課程の研究テーマでもあります。

ある日、Linyuan Technologyは「インテリジェント検索システム」を開発するプロジェクトを立ち上げました。中国語検索エンジンの最初のステップは単語の分割です。上司はHe Hanに単語分割プログラムの作成というタスクを割り当て、いくつかの分厚い学習教材を与えました。

正直に言うと、これは He Han 氏にとって NLP との初めての接触であり、この単語セグメンターを作成するには「実務を通じて学ぶ」必要があることは明らかでした。彼は「きっとできるはずだ」「やれば一番いいものができる」と自信を持っていました。

調査の結果、He Han 氏は、Jieba、Ansj、IK などの市販のオープンソースツールの単語分割効果が理想的ではないことを発見しました。組織の名前や別名の多くは区別できず、新しい単語は随時更新されても含めることができず、単語分割の速度も非常に遅いという問題がありました。彼はすぐに、ユーザーエクスペリエンスに優れた単語分割ツールを作ることにしました。

その後すぐに、何漢は専門書や論文を読みふけり、独学と成長のプロセスを始めました。彼は、Zhang Huaping や Liu Qun など NLP 分野の専門家の論文をほぼすべて読んでおり、いくつかの深遠な概念に混乱することはよくあります。 He Han 氏に最も大きな影響を与えたのは、Lu Zhenyu 氏が開発した ICTCLAS 単語分割システムのオープンソース C# バージョンでした。彼は Lu Zhenyu 氏のブログ記事を読みながら C# を学び、そのとき初めて ICTCLAS 単語分割の原理を理解しました。 He Han 氏は ICTCLAS をベースにいくつかの改良を加え、Java バージョンを実装しました。このバージョンは実行速度が非常に遅いですが、幸いにも出力結果は ICTCLAS と一致しています。

ICTCLAS を理解した後、He Han 氏はシングルステップ Ansj を学び始めました。Ansj のデータ構造 (二重配列辞書ツリー) は非常に高速で、彼にとって新しい世界への扉が開かれたように思えました。そこで彼はデータ構造を非常に興味深く研究し始め、最終的に「二重配列辞書木に基づく AC オートマトン」のデータ構造を作成しました。

努力は報われます。半年を費やして、He Han はついにこの単語セグメンテーションツールを作成し、「HanLP」と名付けました。これは日本語専攻の2年生としては非常に珍しいことです。 He Han 氏は、二重配列辞書ツリーに基づく独自開発の AC オートマトンを使用し、HanLP の実行速度を大幅に向上させました。

HanLP の最初のバージョンは機能が比較的単純でした。数年にわたる反復を経て、その機能はますます充実し、パフォーマンスもより効率的になりました。 HanLP は、字句解析、構文解析、テキスト分類、感情分析などの機能を提供できます。さらに、HanLP は高精度、高速、低メモリ消費という特徴を備えています。

現在、HanLP の GitHub スター数は 15.5K に達し、ペンシルバニア大学の NLTK、スタンフォード大学の CoreNLP、ハルビン工科大学の LTP を上回っています。

何漢氏はこの成果に非常に満足しており、大多数のユーザーからの評価に感謝しています。「開発者の視点から見ると、レベルも人数も、私は教授たちの十分の一にも及ばない」と何漢氏は言う。前述の教育・学術目的のプロジェクトと比較すると、HanLPは個人的なプロジェクトであり、主に実稼働環境向けに開発されている。目的が異なるため、HanLPの成功の「魔法の武器」は優れたユーザーエクスペリエンスにあり、インターフェース設計やコードスタイルなどの「ソフトパワー」の面でもよりユーザーフレンドリーである。

博士号を取得して本を出版した

HanLP の予想外の成功により、He Han は NLP についてさらに深く理解するようになりました。このプロジェクトを開発する過程で、この分野の専門知識を習得し、NLP というテーマの魅力を理解しました。その後の研究生活では、NLP を主な研究方向と定めました。 He Han は現在、エモリー大学でコンピューターサイエンスの博士号取得を目指して勉強しています。主な研究分野は、構文解析、意味解析、質問応答システムです。

[[281236]]

HanLP はバージョン v1.3 以降、DaKuaiSearch によって開発されており、完全にオープンソースです (GitHub オープンソースアドレス: https://github.com/hankcs/HanLP)。 2018年11月、HanLPはバージョン1.7にアップデートされ、テキストクラスタリングやパイプライン単語分割などの新機能が追加されました。この時点で、HanLPの中国語の語彙解析は比較的成熟し、産業利用レベルに達しています。

現在、He Han 氏は引き続き GitHub 上の HanLP のメンテナンスを担当しています。 HanLP は He Han に多くのファンを獲得し、彼らはしばしば He Han に NLP 関連の問題について相談しに来ます。時間が経つにつれて、質問が蓄積されてきました。He Han は初心者ユーザーが入門情報を見つけられるように支援しようとしましたが、残念ながら特に適切な情報は見つかりませんでした。偶然にも、出版社の編集者から記事の執筆を依頼され、何漢氏は自ら入門書を書くことを決意した。

このような状況の中で、本書『自然言語処理入門』の位置づけはすぐに明らかになりました。それは、一般の人が初めて読むNLPの本であり、初心者でも理解できる参考書であるということです。また、何漢氏は、この本が読者に次の方向性を示してくれることを期待しており、導入部分の内容を基にして、挑戦的な章をいくつか追加した。

2019年10月、1年間の執筆と10回以上の校正を経て、『自然言語処理入門』が正式に出版されました。この本は、Zhou Ming、Liu Qun、Wang Binなど、業界のトップNLP専門家からも推薦されています。

「理論は根であり、プロジェクトは木です。」HanLP が木だとすると、この「自然言語処理入門」という本はその木の基礎です。

HanLP を作成した当時と比べると、He Han は初心者からこの分野の専門家へと変貌しました。変わらないのは、He Han が今でも「工学と理論の融合」を創作の核心コンセプトとみなしていることです。彼は、現在市販されている難解でわかりにくい教科書とシンプルな入門書の間でバランスを取ろうとしています。 He Han 氏は自身のオープンソースプロジェクトをケースとして使用し、各アルゴリズムと各モデルをコードと数式で説明して、読者が結果とその理由を理解できるようにしています。

現在、NLPの最大の問題は、世界の知識を表現するのが難しいことです

インタビューの中で、He Han 氏は、NLP と構文解析、意味解析、質問応答システムの現在の開発状況と動向について素晴らしい見解を共有しました。

トランスフォーマーファミリーにとって楽しい一年

何漢氏は、今年はBERTを筆頭とするTransformerファミリーにとってカーニバルの年だと語った。大規模なラベルなしコーパスでトレーニングされたTransformer言語モデルは多くの知識をエンコードできることが発見されて以来、対話システムを含むさまざまなタスクがTransformerとの接続方法を研究している。これらの研究は興味深いものですが、別の意味ではやや退屈でもあります。結果は確かに大幅に改善されましたが、モデルはまだ十分に解釈可能ではありません。知識はエンコードする必要があることは誰もが知っていますが、どのようにエンコードするか、なぜエンコードできるか、パラメータをどのように簡素化するかなどはまだ研究中です。

英語の構文解析は限界に達している

構文解析と意味解析はどちらも、各単語の修飾語を見つけてそれらの関係をマークすることに要約できます。この種のタスクの場合、BiAffine は最先端のアプローチです。これはグラフベースのアルゴリズムのファミリーに属しており、当然ながら並列化に適しており、GPU 上で非常に高速です。それ以来、多くの「改善」研究が登場し、一般的には高次モデリングの方向に進んできました。しかし、He Han 氏は、英語の構文解析は基本的に限界に達しており、中国語の構文解析の問題はモデルではなく、高品質で大規模なツリーバンクにある可能性があると考えています。

意味的依存解析に関しては、コーパスの構築が遅れていることを除けば、統語的解析モデルと同じです。質問の SQL への変換や抽象的な意味表現など、意味解析ファミリーに属する他のいくつかのタスクは、やや平凡であり、基本的に Seq2Seq のバリエーションです。上記のすべてのタスクにおいて、問題をベクトルとして効果的に表現する方法が中心的な問題です。今度はトランスフォーマーが再びリストを支配する番です。

将来、機械学習エンジニアのポジションは減少するだろう

現在の NLP 開発における課題について、He Han 氏は、現在の NLP の最大の問題は世界の知識を表現するのが難しいことだと述べました。たとえば、誰もが物理世界について一連の理解を持っていますが、コンピューターにはいくつかの記号コーパスしかありません。「百聞は一見にしかずと言われますが、現在の NLP システムは、見る (マシンビジョン) どころか、嗅ぐことさえほとんどできません (音声処理)。」

しかし、学術界の最先端の開発という点では、モデル構造の探索における AutoML (ニューラルネットワークの自動設計) と知識工学における知識グラフの自動構築は、どちらも今後の開発動向として予測されます。

業界に関して言えば、ニューラルネットワーク自体が設計できるようになり、多くのエンジニアが手動で設計する必要がなくなるため、機械学習エンジニアのポジションの数は将来的に減少するでしょう。その頃には、ソフトウェア開発は 2.0 時代に入り、人々はもはやコードを書かずにデータにラベルを付けるようになります。ラベル付けされたデータはニューラルネットワーク学習モデルに入力され、モデルの構造もニューラルネットワークによって自動的に探索されます。このモデルは、実用的な問題を解決するために使用されます。ソフトウェアエンジニアはコードを 1 行も書く必要がありません。つまり、注釈を付けるデータがコードになります。ニューラルネットワークはコンパイラであり、トレーニングされたニューラルネットワークはコンパイルされたプログラムです。コンパイラがコンパイラをコンパイルできるのと同様に、ニューラルネットワークはニューラルネットワークをトレーニングできます。これは将来的に最も大きな可能性を秘めた技術です。

最後に

博士号を取得した今、何漢さんの生活はシンプルです。日々の勉強以外では、彼の好きなものは相変わらずアニメとゲームです。

He Han は HanLP のメンテナンスに加えて、余暇には「Code Farm」というブログを運営し、授業のノートを共有しています。多忙のため、近年「Code Farm」の更新頻度は「年」にまで減少しましたが、それでも毎日何千人ものファンが情報を閲覧しに来ます。

このブログの片隅から、何漢の別の一面を垣間見ることもできるかもしれない。

「Code Farm」の情報紹介で、何漢氏はアルゴリズムの初心者だと語った。大学2年生のとき、何漢はHanLPの開発にパートタイムで取り組んでいた。彼はよく教室でひとりで座って一生懸命働いていた。クラスメイトたちは彼が何をしているのか全く知らなかった。「女子クラスメイトのほとんどは、私がコンピューターを修理するようなプログラマーだと思っていた。男子クラスメイトの中には私が下品だと思った人もいれば、かっこいいと思った人もいた」何漢はその理由を決して説明しなかった。彼は、ありのままの自分でいればいいと思っていたのだ。

彼はアルゴリズムの熱心な支持者でもあります。アルバイトとして働くことから現在の研究の方向性を固めるまで、常に自分の好きな分野に集中してきました。インタビューの最後に、何漢さんは卒業後も学問に専念し続けることを選んだと語った。

<<: 4つの高性能なデータ型、Pythonコレクションはコードの最適化とタスクの簡素化に役立ちます

>>: コンピュータビジョンを学ぶための81ページのガイド