この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 大規模な言語モデルが「すべてを飲み込んで」しまい、誤った情報でトレーニングされてしまうのではないかとまだ心配していますか? 過去において、これは確かに NLP モデルをトレーニングする際に考慮する価値のある難しい問題でした。 現在、Google はこの問題を根本的に解決しました。 彼らは、知識グラフを「人間の言語」で直接記述し、コーパスを生成し、それを NLP モデルに与えてトレーニングする、 TEKGENと呼ばれる AI モデルを作成しました。 ナレッジグラフの情報源は正確で信頼できるものが多く、また手作業で精査・レビューされているため、品質が保証されているからです。 現在、この研究はNAACL 2021に採択されています。 AI にナレッジグラフを「人間の言語」で記述させるにはどうすればよいでしょうか?Google がナレッジ グラフを記述するために使用する TEKGEN モデル。完全な名前は Text from KG Generator です。 ナレッジグラフ内のすべての単語を読み取り、単語間の関係を整理し、「人間の言語」で話します。 下の図に示すように、変換ステートメントは 2 つのステップに分かれています。 まず、関係マップ内の単語を論理的に並べます。次に、いくつかの単語を追加し、文間の論理的な関係を調整して、完全な文にします。 この機能を実現するために、TEKGEN は4 つの部分で構成されています。
全体として、TEKGEN を使用してステートメントを生成するプロセスは次のとおりです。 生成された文は、大規模な言語モデルを安全にトレーニングするために使用できます。 この生成されたコーパスは4,500 万個のトリプルから生成され、合計で1,600 万個の文を形成します。 では、このコーパスでトレーニングされた NLP モデルは本当により良い結果を達成できるのでしょうか? 「人間は5点満点中4.3点を付けます」まず、接続詞を使って文を作る方法の例をいくつか見てみましょう。 入力された単語からは、主語、目的語、および 2 つの単語の関係のみがわかります。 しかし、TEKGEN は何かを「理解」したようで、すぐにこれらの文を通常の文に組み合わせました。 時間、場所、従属関係が明確に区分されているだけでなく、日常会話の語順にも論理的に一致しています。 では、AI の「画像からテキストへの変換」機能に、5 点満点中、人間は何点をつけるでしょうか? Google は評価を実施するためにボランティアを募集しました。結果から判断すると、TEKGEN は「意味」と「流暢さ」の両方で4.3 点を超える良好なスコアを達成しました。 もちろん、このコーパスでトレーニングされたモデルを評価するために、LAMA (言語モデル分析) プローブもここで使用されます。 Google-RE および TREx データセットでは、事前トレーニング済みモデルがさまざまなタスクで非常に優れた結果を達成しました。 将来的には、AI が大学入試中国語の「絵文字変換」問題に実際に挑戦することになるかもしれません。 著者について論文の筆頭著者である Oshin Agarwal 氏は、ペンシルバニア大学コンピューターサイエンス学部の博士課程の学生です。彼女の研究分野は、自然言語処理における情報抽出です。 この論文は彼女が Google でインターンシップをしていた間に完成しました。 Google の Heming Ge、Siamak Shakeri、Rami Al-Rfou もこの作業に参加しました。 現在、著者らはナレッジグラフを使用して生成されたこのコーパスを公開しています。 NLPモデルをトレーニングしたい友達はこれを使えますよ〜 論文の宛先: ナレッジグラフを使用して生成されたコーパス: |
>>: データが増えるほど、AI は賢くなるのでしょうか?私たちはそれを常に当然のこととして受け止めてきました。
[[349374]]タスクオーケストレーションツールとワークフロー最近、タスクとデータのワークフロー...
[[376715]] > Unsplash の Alina Grubnyak による画像ニュー...
高速鉄道網がますます充実するにつれ、列車は人々が長距離を移動する際に好まれる交通手段となってきました...
おそらく今回、私たちは本当に人類の歴史における特異点に立っているのかもしれない。最近、MIT のカー...
ハイテクの継続的な発展に伴い、インテリジェントビル通信システムの構成は絶えず変化し、要件は絶えず増加...
翻訳者 | 李睿校正 | 孫淑娟 良策企業システムのインテリジェント自動化のプロセスでは、各段階の開...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
オープンソースライセンスは進化すべきだと思いますか? 2023年は人工知能(AI)の登場とともに新年...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工筋肉は科学界では常に重要な研究テーマとなっています。理想的には、人工筋肉は医療分野で患者の健康回...
[51CTO.com クイック翻訳] キーボードを握ってください! マウスや GUI がなくても、O...
現在の社会経済情勢において、「新しい雇用形態」は強力なツールとなっている。新しい雇用モデルとは、新た...
人工ニューラル ネットワークは、人工知能 (人間の認知能力を模倣するプログラム) を作成する方法です...