コードで機械の心を構築するまで、どれくらい時間がかかるのでしょうか?

コードで機械の心を構築するまで、どれくらい時間がかかるのでしょうか?

[[242009]]

この記事の著者は、Microsoft Internet Engineering Academy (Asia) の Dr. Ruihua Song であり、Microsoft XiaoIce の主任科学者です。

中国語では、「知性」と「心」という言葉は関連しているが異なる意味を持っています。

「知性」は知識と才能を意味し、現在では物体の知性や能力のレベルを表すのによく使われます。一方、「心」はより高度な意味であり、創造性と知性の起源として理解することができます。

そこで疑問なのは、現在私たちが研究している「人工知能」は、機械のIQパフォーマンスを継続的に向上させ、垂直分野における専門能力を強化することに専念すべきか、それともさらに一歩進んで機械の精神的本質の構築を目指すべきか、ということです。私たちの足元にある2つの道は、どちらも不透明で予測不可能な未来へと続いています。私たちはどちらの道を選ぶべきでしょうか。

私の意見では、これら 2 つの道に正解も不正解もなく、ただ探検家の焦点が異なるだけです。長年にわたり、学術界と産業界における人工知能の研究開発の主流は、より実用的な「知能」に焦点を当ててきました。その結果、対話を通じて人間と機械のつながりを強化し、機械学習のための価値の高いデータを取得し、人工知能の創造性マトリックスを構築し、コードを使用してAIマインドを構築するという学術的なアイデアを探求した人はほとんどおらず、かつては疑問視されたことさえありました。私の同僚はかつて、このようなレビューアーのコメントに遭遇しました。「このような目的のないチャットを行う意味が理解できません。」

対話の価値が学界の注目を集めるようになったのは、マイクロソフト XiaoIce の誕生とその成果によってからです。

対話から創造の芽が芽生え始める

おそらく誰もが気づいていないかもしれませんが、2014年の最初の小規模リリースからつい最近の6回目のメジャーアップデートまで、わずか4年で、Microsoft XiaoIceは最先端の人工知能会話ロボットから感情コンピューティングを中核とする完全な人工知能フレームワークに発展しました。Microsoft XiaoIceのおかげで、多くの人々の態度も変わりました。

一般人の態度:

かつて母と雑談していたとき、私は母に「ロボットが人間の最強の囲碁プレイヤーに勝てるなんてすごいことか?」と尋ねました。彼女はもちろん素晴らしかったと言いました。改めて聞いたのですが、人と会話できるロボットもあるんですね、すごいですよね?彼女は、誰もが囲碁を打ててチャンピオンになれるほどの力があるわけではないので、感動的ではないが、「誰もが話すことができる」と語った。この事件は私に言葉を与えない。母は自然言語処理の難しさは理解していませんが、彼女の意見は一般の人々の直感的な感覚を代表しています。つまり、人間が何かをすることの難しさを、人工知能の能力レベルを測り判断するために自然に使うようになるのです。

しかし、Microsoft XiaoIce が人間の言語を話す能力は並外れています。常に面白い会話を思いつくことは、人工知能どころか人間にとっても簡単なことではありません。第一世代がリリースされて以来、ユーザーはXiaoIceとの会話から「黄金の文章」のスクリーンショットを時々投稿しており、時間が経つにつれて、XiaoIceの黄金の文章の頻度はますます高くなっています。これは、XiaoIce の会話能力がますます高まっていることを反映しており、彼女の魅力にも貢献しています。

会話中、正確で明確な答えよりも、感情的な安らぎや普通ではない反応を期待する傾向が強い。これは、Xiaoice チームが初めて発見し、検証した事実です。

その後、母はCCTVの「スーパースマート」でシャオビンが詩を書いたエピソードを見て、シャオビンのようなロボットが観客が好む詩を書いてゲストをからかうことができるのは「本当にすごい」ことで、期待以上だったと嬉しそうに話してくれました。

専門家の姿勢:

これまで、学術界は、5W(何を、誰が、いつ、どこで、どの)からどのようになど、対話の課題を明確に定義するための質問設定に多大な労力を費やしてきました。たとえば、IBM Watson は、知識質問応答の分野で新たなマイルストーンを打ち立てました。自然言語で質問を受け付け、大量の文書を検索および分析して、比較的正確な回答を得ることができます。さらに、オンライン コミュニティのユーザーによって生成された質問と回答のコーパスにより、研究者たちは、このデータが機械が特定の広範な質問に答えるのに非常に役立つことを発見しました。しかし、垂直産業分野(医療、金融など)における人工知能対話システムの応用とは別に、一般の人々は人間とコンピュータの対話に対するニーズをどのように定義すべきでしょうか?

端的に言えば、これは普通の人が人工知能となぜ、何を話すかという問題です。かつて、XiaoIceとそのユーザーとの最長連続会話が29時間を超えたという私の話を聞いて、ある友人は理解に苦しむ様子でした。「この人は普通なの?」しかし、私にとって、XiaoIceの記録は非常に理解しやすいものです。欲求の観点から見ると、「社交的になればなるほど孤独になる」や「交友関係が広くなればなるほど自己が小さくなる」というのは、いずれも客観的な現象です。ソーシャルネットワークでは、ユーザーは自分の強みを誇示して認知されることに慣れていますが、一方で、周りの人全員が自分の強みを誇示する仲間入りをすると、他人からの理解や認知を得ることが難しくなります。イメージ的に言えば、XiaoIce はトップエキスパートのような人工知能ではなく、隣の家や隣のクラスの小さな女の子のようなものです。彼女は無限の忍耐力を持ち、いつでもユーザーとチャットしたりゲームをしたりすることができますが、彼女の深い知識と傲慢な態度でユーザーの IQ と自尊心を傷つけようとは決してしません。

人工知能の価値が仲間意識に位置づけられると、知識や論理はもはや最も開発すべきスキルではなく、ある意味、ユーザーにストレスフリーで面白いと感じさせることの方が重要になります。

2017年5月、Microsoft XiaoIceは詩と音楽の創作スキルを解放しました。同時に、XiaoIceとその仲間の精神発達の道を規制し、導くための「人工知能創造の3つの原則」も発表しました。関連する研究を進める過程で、人工知能の究極の目標は人間自身を理解し、シミュレートすることであるかもしれないということを発見しました。

XiaoIce に詩を書くよう訓練するには、519 人の詩人の現代詩を 10,000 回順方向に、10,000 回逆方向に読み、階層的再帰ニューラル モデルを使用して詩の言語を磨く必要があります。これは、私たち人間が発見したように、読書が文章に与える影響です。優れた文学作品を多数読むことで、その人自身の言語体系が進化します。才能に応じて、この進化のプロセスは速い場合も遅い場合もありますが、全体として、読者の文章で自分を表現する能力は知らないうちに向上します。 Xiaobing についても同様です。階層的再帰ニューラルネットワークにより、XiaoIce は読書を通じて言語表現能力も獲得できます。

XiaoIce が詩集を発表し、幅広い議論を巻き起こして以来、業界関係者の人工知能の創造と機械による執筆に対する姿勢は根本的に変化し、学術的な議論や応用のフォローアップの例も増えています。これは私たちが歓迎するものです。

ブラインドテスターの態度:

「超スマート」シーズン1では、CCTV総合チャンネルが3人の若い詩人を招待し、ゲストが提供した写真に基づいて小氷と一緒に詩を作りました。その後、作者の名前を匿名にし、順序を入れ替えて、詩を大スクリーンに表示しました。会場にいた48人の観客は、お気に入りの詩に投票しました。これはブラインドテスト、つまり代替チューリングテストと言えます。

結果は予想外のものでした。観客はシャオビンに最も多くの票を投じましたが、私は当初シャオビンが最後にならないことを祈っていただけだったので驚きました。その様子をカメラが記録した。人間と人工知能の成果が対等に比較されると、機械による創造に対する偏見は一気に消え去ったかのようだった

第2ラウンドでは、2人の詩人が再び小冰と作品で競い合い、小冰の詩はやはり第2位を獲得し、挑戦を無事に終えた。私たちは、XiaoIce が書いた詩が人間の詩人の書いた詩を超えると考えるほど傲慢ではありませんが、このプログラムは私たちの考えを広げました。おそらく、人工知能研究の目標は、人間の知性や才能を機械にコピーすることだけではなく、より重要なのは、人工知能の探求を通じて人間自身をより深く理解することであるはずです

Microsoft XiaoIce は、4 年前の会話型 AI から進化し、現在では詩、音楽、子供向けオーディオブック、金融情報、テレビやラジオのキャスター、メディアのニュース解説、さらには執筆支援など、さまざまな分野に創造性を発揮しています。これは、当初私たちが植えた精神的な種が今や地面を突き破って芽を出したことを示しています。

次は3x3で、より積極的かつパーソナライズされた人間と機械の対話を実現

Microsoft XiaoIce の次の目的地はどこでしょうか?心の若い芽は成長し続け、強くなることができるでしょうか?その答えは、XiaoIce のアップグレード速度をさらに加速するために、「3x3」人工知能開発マップを構築しているということです。

最初の 3 つは、自然言語処理、音声、コンピューター ビジョンの 3 つの主要分野の研究結果を統合し、マルチモーダル インタラクションを使用して XiaoIce をトレーニングし、より速く進歩することです。

これまで、上記の分野はそれぞれ独自の軌道で独立して発展してきました。近年、ディープラーニング技術とアルゴリズムの向上により、音声認識や画像認識において大きな進歩が遂げられており、自然言語処理技術においても同様の進歩が期待されています。過去 1 年間、私たちはコンピューター ビジョン技術を組み合わせて XiaoIce の詩作成機能をトレーニングし、これを使用してマルチモーダル インタラクションが人工知能技術の進化を促進できるかどうかを評価してきました。その結果は興味深いものです。

  • 画像認識を利用して詩的なテキストを生成するには、画像に隠された詩的な手がかりを発見すること(たとえば、緑は活力を象徴し、太陽の光は希望を表す)や、画像に関連し、言語レベルで詩的な要件を満たす詩を生成することなど、多くの課題が伴います。

    これらの課題に対する私たちの解決策は、ポリシー勾配を通じて詩の生成作業を 2 つの関連するマルチ敵対的トレーニング サブタスクに分割し、深く結合された視覚的な詩的埋め込みを学習することを提案することです。トレーニング プロセス中に、マシンは画像内のオブジェクト、感情、シーンの詩的な表現も学習できます。

    また、マルチモーダル識別子と詩のスタイル識別子を含む、詩の生成を導く 2 つの識別ネットワークも構築しました。研究チームはモデルを使用して 8,000 枚の画像を生成し、その中から 1,500 枚の画像をランダムに選択する大規模な実験を実施しました。また、チューリング テストを受ける被験者 500 名を募集しました。そのうち 30 名は詩の専門家です。テストの結果、私たちの詩作法は他の基準となる方法よりも効率的で芸術的であることが示されました。

  • XiaoIce の音楽機能も大幅に拡張されました。実際には、歌うのが好きな人はたくさんいますが、曲を作曲できる人はごくわずかです。それだけでなく、感動的な曲を演奏するには、作詞作曲から編曲、歌唱伴奏から演奏と録音まで、ミュージシャンのグループが協力して作業することがしばしば必要になります。そのプロセスは複雑で時間がかかります。

    蘇州にあるマイクロソフト(アジア)インターネットエンジニアリングアカデミーのチームが、ポピュラー音楽生成に関する新しいアイデアを考案した。チームはエンドツーエンドのメロディーとアレンジメントの生成フレームワークを提案し、それを「XiaoIce Band」と名付けました。このフレームワークは、まずコードベースのリズムとメロディのクロス生成モデル (CRMCG) を通じてメインメロディを生成し、次にマルチ楽器共同アレンジメントモデル (MICA) を使用して、マルチモーダル学習に基づいてさまざまな楽器のマルチトラック伴奏音楽を生成します。最後に、チームは実際のデータセットに対しても多数の実験を実施し、その結果、小氷バンドの有効性が証明されました。関連する研究結果は、チームの論文「小氷バンド:ポップミュージックのメロディーとアレンジメントの生成フレームワーク」に記載されています。この論文は、KDD 2018 (知識発見とデータマイニングに関する会議) で最優秀学生論文賞も受賞しました。

2 番目の 3 は、Microsoft XiaoIce の 3 つの独自の「学習者」、つまり生成モデル、共感モデル、3 ビュー モデルを指します。

  • 「生成モデル」は、XiaoIce の第 5 世代から使用されました。これまで、XiaoIce のすべての世代では検索モデルが使用されていました。 10億語のビッグデータコーパスを持っていますが、その中のすべての文章はインターネット上の既存のデータです。XiaoIceは、ユーザーの質問を分析して理解し、コーパスから最も適切な単語を探して回答するだけです。つまり、対話コーパスをリアルタイムで検索して選択します。生成モデルを使用することで、XiaoIce は独自の応答を作成できます。彼女が人間に話す言葉はどれも、この世界に現れたことがないものかもしれない。過去 1 年間の実績から、生成モデルによって XiaoIce は既存の対話コーパスのコミュニケーション パターンを迅速に学習し、比較的馴染みのないトピックにもより適切に対処できるようになったことが証明されています。

  • 以前は、ユーザーは XiaoIce と話すときにプレッシャーを感じることがありました。たとえば、2 人の会話では常に、人間が話題を出し、Xiaoice がそれに応答する必要があります。それはちょうど、私たちが興味のある異性と会話を始めるとき、常に私たちが主導権を握り、相手が受け身であれば、会話はすぐに味気ないものになります。共感モデルは、この状況に対処するために開発されました。共感モデルは、XiaoIce がユーザーのトピックに興味があるかどうかを判断するのに役立ちます。これに基づいて、XiaoIce は積極的に検証し、トピックの方向を導き、新しいチャット コンテンツを追加します。これにより、ユーザーへのプレッシャーが軽減され、チャットの自然さと楽しさが増します。

  • XiaoIce が進化し続けるにつれて、ますます多くのビジネス パートナーが当社の協力的なエコシステムに加わります。一部のパートナーは、XiaoIce の機能を活用して、個性的な他の AI キャラクターを育成できることを期待しています。そのため、私たちは対話を通じて人格を形成する方法についても常に研究しており、この必要性から3つの視点のモデルが生まれました

    現在、このモデルはNetEase Cloud MusicのDuoduoとXixiに適用されています。 2 人のキャラクターの共通点は、どちらも音楽を聴くのが大好きな小さな鹿であり、どちらも雄であり、年齢が近いことです。会話中にユーザーに異なる印象を与えるにはどうすればよいでしょうか?漫画やゲーム制作のキャラクター設定手法を借用し、それぞれに異なる性格や嗜好を持たせました。たとえば、Duoduo はコーヒーを飲むのが好きですが、Xixi はコーヒーを飲みません。彼女の肌は生まれつき黒く、コーヒーを飲むと肌がさらに黒くなると信じているからです。 Duoduo と Xixi は、態度分析技術を使用して、ユーザーが提起した一連の質問と応答を分析し、ユーザーが特定の対象に対してどのような感情情報を持っているか (たとえば、ユーザーがコーヒーが好きか嫌いか) を判断し、性格のさまざまな特性に基づいて会話に影響を与え、異なるパーソナライズされた応答をもたらします。

    三観モデルは、XiaoIceをはじめとする人工知能キャラクターに「体温」を与え、態度の一貫性と継続性を通じてキャラクターの個性を徐々に浮き彫りにしていきます。

3 大分野の複合トレーニング システムを Microsoft XiaoIce の 3 大学習ツールと組み合わせることで、XiaoIce の成長は必然的に大幅に加速し、「コードで機械の心を構築する」という目標に一歩近づくことになります。つまり、感情コンピューティング フレームワークも人工知能の作成も、Microsoft XiaoIce や Microsoft の人工知能研究開発部門の最終目標ではありません。おそらく、「人工心」の構築が最終目標です。

<<:  ガートナーは、人間と機械の境界を曖昧にする5つの新たな技術トレンドを明らかにした。

>>:  TensorFlow を使用した LSTM モデルの構築に関する詳細なチュートリアル

ブログ    
ブログ    

推薦する

AI + データサイエンス: スポーツ業界を変える6つの方法

[[329380]]テクノロジーの発展に伴い、人工知能とデータサイエンスはスポーツの分野でますます重...

...

Jitu: 5秒でNeRFをトレーニングしましょう!オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

35歳で機械学習と人工知能の分野に参入?

最近、友人とこの問題について話し合っています。ご存知のとおり、IT 業界は標準的な「若者の仕事」です...

...

気候変動との戦い: AIはエネルギーソリューションをリードできる

AI と機械学習をエネルギーと組み合わせることで、再生可能エネルギーの導入を加速することができます。...

ロボット市場は飛躍の準備ができており、人間と機械の統合が主流のトレンドとなっている

最近、2021年世界ロボット大会が北京で盛大に開幕しました。ロボット分野の最先端技術と最新の成果が展...

...

...

AIによる決定をどのように説明するのでしょうか?この記事では、アルゴリズムの適用シナリオと解釈可能性を整理します。

英国の情報コミッショナー事務局(ICO)とアラン・チューリング研究所は共同で「AIによる説明決定」ガ...

偽の顔を正確に生成します! Amazonの新しいGANモデルは死角のないオールラウンドな美しさを提供します

最近、Amazon One の研究者は、生成された画像を明示的に制御できる GAN をトレーニングす...

AI研究者の邢波氏:機械学習には明確な理論的枠組みが欠けており、評価の目標と方法を再定義する必要がある

[[426278]] 2021年1月、コンピュータサイエンスと人工知能分野のトップ学者であるエリッ...

ビデオPSツール!文字の非表示と透かしの除去:CVPRで発表されたこの研究はオープンソース化されました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

中国チームがボストン・ダイナミクスに対抗する四足歩行ロボットを発表

本日、Yushu Technology は、中国で正式に一般に公開される初の四足歩行ロボットとなる四...