Tフロントライン | テンセントAILabとの独占インタビュー:「点」から「線」へ、実験室は単なる実験以上のもの

Tフロントライン | テンセントAILabとの独占インタビュー:「点」から「線」へ、実験室は単なる実験以上のもの

ゲスト:石淑明

執筆者: Mo Qi

校正:趙雲

「ほとんどの研究は一つの点を中心に展開する傾向があるが、点のような結果はユーザーが直接利用するのは難しい」とテンセントAIラボの自然言語処理センター所長、石樹明氏は語った。

過去 10 年間で、人工知能 (AI) はルネッサンスを経験し、自然言語処理 (NLP) の分野で大きな技術的進歩が起こりました。 NLP 技術の進歩により、機械翻訳の品質が大幅に向上し、検索や推奨がより正確になりました。同時に、会話型ロボットやインテリジェントライティングなど、より多くのデジタルシナリオアプリケーションも誕生しました。では、AI の至宝として、NLP 分野が国内外の無数の企業、人材、資本を引き付けてきた後、さまざまな要因がどのようにその研究の進歩を推進しているのでしょうか。企業はどのように研究成果を育成し、実行するのでしょうか?関係する実務家は、AI 開発におけるボトルネックや論争をどのように見ているのでしょうか?

最近、「T最前線」はテンセントAIラボ自然言語処理センターにインタビューする機会に恵まれ、「人工知能実験室」の観点からその一端を垣間見ることができた。

実験だけではなく、実装と結果の公開にも重点を置いています

Tフロント:テンセント  AILab は自然言語処理においてどのような方向性を模索していますか?

石淑明:テンセントAIラボの自然言語処理チームは、テキスト理解、テキスト生成、インテリジェント対話、機械翻訳の4つの分野で研究を行っています。成果の面では、論文発表から判断すると、過去3年間でチームは毎年50本以上の学術論文を一流の国際会議やジャーナルに発表しており、国内のトップ研究機関にランクされています。特筆すべきは、私たちの論文2本がそれぞれNAACL'2021の最優秀論文とACL'2021の優秀論文に選ばれたことです。学術的な競技面では、昨年の国際機械翻訳コンテストWMT'2021で5つのタスクで1位を獲得するなど、ヘビー級の競技で数々の優勝を果たしています。

論文や学術コンテストだけでなく、研究成果をシステム化したりオープンソースデータ化したりして社内外のユーザーに公開することも意識しています。これらのシステムとデータには、テキスト理解システム TexSmart、インタラクティブ翻訳システム TranSmart、インテリジェント作成アシスタント「Effidit」、800万語の中国語単語ベクトルデータなどが含まれます。

2018年末に発表された中国語単語ベクトルデータは、対外的には「テンセント単語ベクトル」と呼ばれ、規模、精度、鮮度においてトップレベルにあり、業界で広く注目され、議論され、使用され、多くのアプリケーションでそのパフォーマンスが継続的に向上しています。類似のシステムと比較して、テキスト理解システムTexSmartは、きめ細かい固有表現認識(NER)、意味的関連付け、深い意味的表現、テキストグラフなどの特別な機能を提供し、第19回中国計算言語学会議(CCL'2020)で最優秀システムプレゼンテーション賞を受賞しました。インタラクティブ翻訳システム TranSmart は、中国で初めて公開されたインタラクティブ翻訳インターネット製品であり、翻訳入力方式、制約デコード、翻訳メモリ融合などの注目機能を提供します。国連文書機構、Memsource、華泰証券、テンセントミュージック、中国文学の海外展開、テンセントゲームの海外展開、テンセントの自選ストック文書翻訳など、社内外の数多くの顧客、業務、シナリオをサポートしています。当社が先日リリースしたインテリジェントクリエイティブアシスタント「Effidit」は、多次元テキスト補完や多様化されたテキスト磨き上げなどの特別な機能を備えており、AI技術を活用してライターの思考の拡大、表現の豊かさ、テキスト編集・執筆の効率向上を支援します。

T Frontline: インテリジェントコラボレーションという点では、「Effidit」を例に挙げて、プロジェクトの起源と最新の状況についてお話しいただけますか?

石淑明:インテリジェントライティングアシスタントEffiditプロジェクトは、2020年の国慶節前に開始されました。このプロジェクトを実施する主な理由は 2 つあります。1 つは、文章作成の問題点、もう 1 つは、このシナリオに必要な NLP テクノロジが、私たちのチームの蓄積された能力と一致していることです。

まず、文章を書く際の問題点についてお話ししましょう。私たちの生活や仕事では、ニュース、小説、公開記事、論文、技術レポートなどを読む必要が頻繁にあります。また、技術文書、議事録、報告書などを書く必要もあります。読む作業はたいてい簡単で、楽しく、楽ですが、書くことは違います。自分の考えを表現するのに適切な言葉の使い方がわからないことがよくあります。一生懸命書いた文章や段落が、味気なく見えたり、途中でタイプミスが出たりしがちです。おそらくほとんどの人は、書くことよりも読むことの方が得意です。そこで、テクノロジーを活用して、文章作成の問題点を解決し、文章作成の効率を向上させることができないかと考えました。

このプロジェクトを立ち上げた2つ目の理由についてお話ししましょう。私たちは、NLPテクノロジーが人間の作業効率と生活の質をどのように向上させることができるかについて考えてきました。過去数年間、私たちはテキスト理解、テキスト生成、機械翻訳などの NLP サブ方向について徹底的な研究を行ってきました。ほとんどの研究作業は 1 つの点を中心に展開される傾向がありますが、点状の結果はユーザーが直接使用することは困難です。そのため、私たちは無意識のうちに、いくつかの点状の研究結果をつなぎ合わせて線、つまりシステムを形成します。私たちはテキスト生成の研究成果の応用シナリオを模索してきました。上で述べたような執筆の問題点を考慮して、私たちは議論を重ね、インテリジェントな執筆アシスタントである Effidit プロジェクトを立ち上げることに決めました。

1年半の研究開発を経て、最初のバージョンがリリースされました。今後は、繰り返し改善を重ね、ユーザーのフィードバックに耳を傾け、さまざまな機能の有効性を高め、ユーザーにとって使いやすく、好評を博すツールを目指してまいります。

信頼できるAI:説明可能性と堅牢性の研究はまだ探求する必要がある

T Frontline: 近年、信頼できるAIが業界関係者から注目されています。NLP分野における信頼できるAIの理解と進歩についてお話しいただけますか?

Shi Shuming: 信頼できる AI についてはあまり詳しくないので、表面的なアイデアについてしか話せません。信頼できる AI は抽象的な概念であり、現在のところ正確な定義はありません。ただし、技術的な観点から見ると、モデルの解釈可能性、堅牢性、公平性、プライバシー保護など、多くの要素が含まれます。近年、Transformer構造に基づく事前トレーニング済みの言語モデルは、多くの自然言語処理タスクで驚くべき結果を示し、幅広い注目を集めています。しかし、これらの AI モデルは本質的にデータ駆動型のブラック ボックス モデルです。予測結果の解釈性が低く、堅牢性も低いです。また、データに固有の学習バイアス (性別によるバイアスなど) の影響を受けやすく、モデルの公平性に問題が生じます。事前学習済みの言語モデルよりも早く出現した単語埋め込みにも、性別による偏見の問題があります。現在、信頼できる AI モデルの構築は、機械学習と NLP の分野で人気の研究方向です。多くの研究が行われており、ある程度の進歩が遂げられています。一方、これらの進歩はまだ目標からは程遠い。例えば、深層モデルの解釈可能性という点では、進歩は特に大きくなく、重要なステップは踏まれていない。

私が勤務するTencent AI Labでも、信頼できるAIに関する研究を行っています。 Tencent AI Lab は 2018 年から信頼できる AI に継続的に投資しており、敵対的堅牢性、分散転移学習、説明可能性という 3 つの主要分野で一定の成果を上げています。今後、テンセントAIラボはAIの公平性と説明可能性に重点を置き、ヘルスケア、医学、生命科学などの分野における関連技術の応用を継続的に模索していきます。

難しさの焦点: 統計的手法ではセマンティクスを根本的に理解できない

Tフロントライン:現段階ではどうお考えですか?   NLP 研究のボトルネックはどこにあるのでしょうか?今後の方向性は何でしょうか?

Shi Shuming: 自然言語処理の研究分野が誕生して以来、この分野が直面している最大のボトルネックは、自然言語テキストによって表現される意味をいかにして真に理解するかということです。このボトルネックは今のところ突破されていません。

人間は、自然言語を理解する能力を本当に持っています。たとえば、「彼女は青が好きです」という文章を見ると、その意味と、「好き」と「青」が何であるかがわかります。 NLP アルゴリズムの場合、上記の文を処理することと、未知の外国語の文「abc def xyz」を処理することの間に本質的な違いはありません。この未知の外国語では、「abc」は「彼女」、「def」は「好き」、「xyz」は「緑」を意味するとします。外国語について何も知らないと、その外国語の文章をまったく理解できません。幸運にもこの外国語で書かれた文章を大量に目にすることができれば、その文章に対して統計分析を行って、この外国語の単語と母国語の単語との対応関係を確立し、その言語を解読するという最終目標を達成できるかもしれません。このプロセスは簡単ではなく、最終的に成功するという保証はありません。

AIにとって、それが直面する状況は、未知の外国語を解読しようとする私たち人間が直面する状況よりもさらに悪いです。私たちは生活の中で常識を持ち、母国語の単語と心の概念をマッピングしていますが、AIにはこれらがありません。 NLP研究における記号的手法は、テキストや知識グラフの記号表現を通じてAIに人間のような能力を与え、理解の問題を根本的に解決しようとします。一方、統計的手法は常識や心の中の内部概念を一時的に無視し、統計的手法を改善し、データ自体の情報を最大限に活用することに重点を置いています。これまでのところ、2 番目のアプローチが業界の主流の研究であり、大きな成功を収めています。

過去 10 年間の統計的 NLP のボトルネックの打破と進歩から判断すると、単語埋め込み技術(つまり、中次元の密なベクトルを使用して単語を表す)は、単語の計算可能性のボトルネックを打破しました。ディープラーニング アルゴリズムと GPU の計算能力と組み合わせることで、過去 10 年間で NLP の一連の打開策がもたらされました。新しいネットワーク構造 (Transformer など) とパラダイム (事前トレーニングなど) の出現により、テキストの計算可能性とテキスト表現の有効性が大幅に向上しました。しかし、統計的 NLP は人間ほど常識や基本概念をモデル化していないため、自然言語を根本的に理解できず、常識的なエラーを回避することが困難です。

もちろん、研究コミュニティは、記号化と深い意味表現への取り組みを決してあきらめたことはありません。この点で過去 10 年間で最も影響力のある試みには、Wolfram Alpha と AMR (Abstract Meaning Representation) があります。この道は非常に困難であり、主な課題は、多数の抽象概念のモデル化とスケーラビリティ(つまり、高度に形式化された文の理解から一般的な自然言語テキストの理解への拡張)です。

今後の基礎技術の研究方向としては、新世代言語モデル、制御可能なテキスト生成、モデルのクロスドメイン移行機能の向上、知識を効果的に統合する統計モデル、深い意味表現などが考えられます。これらの研究の方向性は、NLP 研究におけるいくつかの局所的なボトルネックに対応しています。応用面では、NLP 技術をどのように活用して人間の作業効率と生活の質を向上させるかが、検討すべき方向性です。

研究と実装:この 2 つをどのようにバランスさせるか?

T 最前線: AI Lab NLP では、基礎研究、最先端技術、産業実装をどのように探求し、計画しているのでしょうか?次のステップに向けての計画は何ですか?

Shi Shuming: 基礎研究の面では、基礎研究のブレークスルーを追求し、現在の研究のボトルネックの問題を解決し、Word2vec、Transformer、Bert のような独創的で有用かつ影響力のある成果を生み出すことを目指しています。この目標を達成するために、一方では基礎研究者に大きな自由を与え、長期的かつ潜在的に影響力のあることに取り組むよう奨励し、他方ではチームメンバー全員がブレインストーミングを通じて重要なブレークスルーを必要とするいくつかの方向性を選択し、協力して取り組んでいます。

産業実装の面では、当社の既存製品の技術変革に加え、自ら主導する技術製品を1~2個創出することに注力し、研究成果を統合して人々の仕事の効率や生活の質を向上させることを目標としています。これらのテクノロジー製品には、翻訳者向けのインタラクティブな翻訳システムである TranSmart や、テキスト編集およびシナリオ作成のためのインテリジェントなクリエイティブ アシスタントである Effidit などがあります。今後とも、これら2つの技術製品を磨き続けていきます。

昆山玉の探索:研究者にはある程度の自由が必要

T Frontline: 科学研究部門に関して、研究者とアルゴリズムエンジニアの重点分野の違いは何だとお考えですか?

Shi Shuming: 私たちのチームでは、アルゴリズム エンジニアの責任は 2 つあります。1 つは既存のアルゴリズム (公開された論文のアルゴリズムなど) を実装または最適化すること、もう 1 つは技術的な製品を実装して磨き上げることです。アルゴリズム エンジニアの 2 つの責任に加えて、研究者の責任には、独自の研究結果を提案して公開することも含まれます。この区分は絶対的なものではなく、境界はかなり曖昧であり、従業員自身の関心とプロジェクトのニーズに大きく依存します。

T フロントライン: マネージャーとして、研究室チームの管理と従来の技術エンジニアの管理の方法と概念の違いは何ですか?

Shi Shuming: ビジネス チームでは、技術エンジニアが緊密に連携し、計画された製品を生産するために特定のプロジェクト管理プロセスを実装する必要があります。研究チームは、多くの場合、基礎研究者と技術エンジニア(少数の製品および運用担当者を含む場合もあります)で構成されます。基礎研究では、研究者にさらなる自由を与え、「指導」を減らしてより多くの支援を与え、彼らの興味を尊重し、彼らの潜在能力を刺激し、長期的かつ潜在的に影響力のあることを行うよう奨励する必要がある。基礎研究におけるブレークスルーは、多くの場合、トップダウンで計画されたり、プロジェクト管理プロセスを通じて管理されたりしません。一方、技術的な製品を作成する場合、研究室のチームは、軽量なプロジェクト管理プロセスによって補完され、研究者と技術エンジニアがさらに協力する必要があります。

研究室AI職:候補者の選考では「3つの資質」と強い内面力が重視される

Tフロントライン:研究能力は高く、ハイレベルな会議で多くの論文を発表しているものの、エンジニアリング能力が乏しい応募者がいた場合、採用していただけますか?

Shi Shuming: いい質問ですね。採用の際によく遭遇する問題です。理想的には、学界も産業界も、非常に優れた研究・工学能力を持つ人材を育成・採用したいと考えていますが、現実にはそのような人材は稀であり、企業や研究機関間の競争の対象となることがよくあります。面接プロセスでは、優れた研究能力を持つ候補者に対して、エンジニアリング能力の要件がそれに応じて引き下げられますが、基本的な基準を上回っている必要があります。同様に、優れたエンジニアリング能力を持つ候補者に対しては、研究能力に関する要件を緩和します。実際の作業プロセスでは、適切に配置されていれば、優れた研究力とエンジニアリング力を持つ従業員が協力してそれぞれの長所を十分に発揮し、一緒にプロジェクトを完了することができます。

T-Frontline: 候補者に最も重視する能力は何ですか?

Shi Shuming:Shen Xiangyang博士は、人材採用の要件は「3つの良い点」、つまり数学が得意、プログラミングが得意、態度が良いことだとおっしゃいました。優れた数学スキルは研究能力に相当し、優れたプログラミングスキルはエンジニアリング能力に相当し、優れた姿勢には「仕事に情熱を持っていること」、「同僚と協力して双方に利益のある結果を達成できること」、「信頼できること」が含まれます。これら3つの点は多くの研究機関で重視されています。実際の面接プロセスでは、論文発表実績やプロジェクトについて話すことで候補者の研究能力や可能性を評価することが多く、プログラミングテストやプロジェクト成果物を通じて候補者のエンジニアリング能力を評価し、面接プロセス全体を通じて候補者が本当に「良い姿勢」を持っているかどうかを推測します。この推測と評価の方法は、時には間違いにつながることもありますが、全体的にはかなり正確です。

1~2時間の面接では判断が難しい能力もありますが、採用した社員がそれらの能力を持っていれば、それは宝物を見つけたようなものです。 1つ目は、重要な研究テーマを選択する能力です。 2つ目は、タスクを完了する能力です。この能力が欠けている人やチームは、さまざまなテーマやプロジェクトを頻繁に開始するかもしれませんが、これらのテーマやプロジェクトは常に高品質で完了せず、多くの場合、不十分な仕上がりに終わります。これは実行力、忍耐力、集中力、技術レベルなどに関係している可能性があります。 3つ目は、孤独と批判に耐える能力です。重要で影響力のあるものは、その影響が現れるまで多くの人に理解されないことが多く、心が強くなく、孤独や批判に耐えられないと、粘り強く続けることは難しく、初心を捨てて、すでにレッドオーシャンとなっている現在のホットスポットに飛び込んでしまうことも容易です。

T フロントライン: 人工知能の分野に転職しようとしている新卒者や技術専門家に何かアドバイスはありますか?

Shi Shuming:卒業生はそれぞれ学歴、通っている学校、参加しているプロジェクトが異なります。人工知能に転向した技術者の職業経験や人生経験は大きく異なるため、普遍的なアドバイスを与えることは困難です。今のところ、私が思いつくのはいくつかの点だけです。まず、仕事に没頭して情報やインテリジェンスの収集を無視しないでください。何人かの先輩同僚や友人に状況について尋ね、彼らの現在の仕事の状況や、さまざまな種類の仕事やさまざまな作業単位に対する評価を聞いて、彼らがたどってきた道や遭遇した落とし穴を理解してください。同時に、フォーラム、公開アカウント、短いビデオなどを通じて情報を収集し、人生のこの重要な局面で意思決定を行うのに役立ててください。次に、卒業まで1年以上あり、インターンシップの経験がない場合は、信頼できるインターンシップ先を見つけてください。インターンシップを通じて、一方では実践的な経験を積み、能力を向上させ、働く感覚を事前に体験することができます。他方では、インターンシップの経験は履歴書をより充実したものにし、就職活動の際の競争力を高めることにもなります。 3 つ目は、職場での内部競争は常に避けられず、すべてが思い通りに進むことは不可能だということです。期待をコントロールし、考え方を調整し、変化によってもたらされる感情的なギャップを消化する方法を見つけましょう。 4番目に、落ち着いた後も夢を忘れず、一生懸命働き、自分の能力にふさわしいことを成し遂げてください。

すべての卒業生が夢の仕事を見つけ、仕事で成長できることを願っています。また、人工知能の分野に転向するすべての技術者が、AIという新しい分野での努力によってもたらされる幸福と報酬を享受できることを願っています。

ゲスト紹介

Shi Shuming 氏は清華大学コンピュータサイエンス学部を卒業し、現在は Tencent AI Lab の自然言語処理センターの所長を務めています。彼の研究対象には、知識マイニング、自然言語理解、テキスト生成、インテリジェントな対話などがあります。 ACL、EMNLP、AAAI、IJCAI、WWW、SIGIR、TACLなどの学術会議やジャーナルに100件以上の論文を発表しており、H指数は35です。彼は、EMNLP 2021 および CIKM 2013 のデモンストレーション共同議長、KDD2022 のシニアプログラム委員会メンバー、ACL や EMNLP などの会議のプログラム委員会メンバーを務めました。


<<:  科学者らが世界最小の「カニ」遠隔操作歩行ロボットを公開。ノミよりも小さい

>>:  GPT-3を超えて、DeepMindは新しいお気に入りのGatoをリリースしましたが、「スープは変えても薬は変えない」と疑問視されています

ブログ    
ブログ    

推薦する

...

ダンスをしたり、音楽を作曲したり、演出したりできる AI を見たことがありますか?

最近、NVIDIA Blog は「ライト、カメラ、AI: Cambridge Consultants...

資金調達、新製品、アプリケーションは引き続き成長中:8月のドローン業界の最新動向の概要

[[420938]]現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の...

画像の混合を利用してより細かい特徴表現を学習するCMU Xing Boのチームの新しい論文がAAAIに選出されました

これは、カーネギーメロン大学とカリフォルニア大学バークレー校の Eric Xing 氏と Trevo...

今後5年間の15の主要なテクノロジートレンド

私たちの生活、仕事、交流の仕方に革命をもたらす技術の進歩によって、未来は常に形を変えています。今後 ...

ビル・ゲイツ:AIは教育と医療の向上に活用されるべき

[[260198]]米テクノロジーメディアCNETによると、マイクロソフトの共同創業者で慈善家のビル...

オープンソースの Gemma モデル: Google の言語の奇跡。命令チューニング、低ランク適応、Switch Transformer を使用して小さなモデルで遊ぶことができます。

言語は人間にとって最も重要なコミュニケーションツールであり、人工知能の分野における最も挑戦的な研究対...

...

速報です! ImageNetデータセット内のすべての顔はぼかされている

2012 年、AI 研究者はコンピューター ビジョンで大きな進歩を遂げ、ImageNet として知ら...

自動制御システムとは何ですか? 自動制御システムの動作原理は何ですか?

自動制御システムといえば、実は多くの友人はそれについてあまり知りません。ここでは、自動制御システムと...

...

...

ネットセレブ列車は強制的に停止させられた。ドローンの操縦はどれほど難しいのか?

最近、「重慶の人気列車がドローンに衝突され停止」する動画がインターネット上で広く出回っている。 [[...

...