交通大学ACMクラス卒業生のGoogleでの新たな仕事:Excelの表の数式を自動で記述

交通大学ACMクラス卒業生のGoogleでの新たな仕事:Excelの表の数式を自動で記述

[[433049]]

数式ビルダーのテーブルバージョンが登場しました。交通大学の ACM クラスを卒業し、バークレーで博士号を取得した Chen Xinyun さんは、ICML 2021 での新しい仕事として Google に入社しました。彼女は自動的に数式を完成させることができ、テスト段階での精度は 57.4% です。この機能は Google スプレッドシートでご利用いただけるようになりました。ぜひお試しください。

Excel は最も身近な見知らぬ人と言えます。私たちは毎日 Excel を使用していますが、その高度な使い方はあまり多くありません。

数式を記述することは Excel の重要な機能です。数式を使用すると、データに対して複雑な分析や変換を実行できます。しかし、スプレッドシートの数式言語はプログラミング言語よりも習得しやすいとはいえ、数式の記述は依然として複雑であり、1 つの記号を誤って計算するとエラーが発生する可能性があります。

2014年にGoogleは、表内のパターンを自動的に識別して各列の欠損値を埋めることができるスマートオートフィルというツールを開発しました。主な手法は、機械学習アルゴリズムを使用して新しいデータを予測することです。

たとえば、テーブルには、使用されている車両の 4 つの特性 (年式、走行距離、ドアの数、車両の種類 (乗用車またはトラック)) が含まれており、車両の価格はこれらの 4 つの特性に基づいて決定されます。これは典型的なデータ分析および予測シナリオであり、アルゴリズムを使用して、テーブルにすでで提供されているデータ (トレーニング セットとして) に基づいて、欠落している価格を推定できます。

このツールは良いのですが、複雑な数式を学習できず、手動での修正も非常に面倒です。

2021 年に早送りすると、シーケンス モデルにおける BERT のパワーを活用して、Google は ICML 2021 で、ターゲット ユニットの周囲のコンテキストに基づいて数式を自動的に生成できる新しいモデルを提案しました。

論文の第一著者は、現在カリフォルニア大学バークレー校でドーン・ソン教授の指導を受けている博士課程の学生であるシンユン・チェン氏です。上海交通大学のACMクラスを卒業し、コンピュータサイエンスの学士号を取得。現在はDeepmindの研究インターンとして働いており、2019年と2020年にはGoogle Brainでインターンとして働いていました。彼の主な研究分野は、ニューラル ネットワーク プログラムの合成と敵対的機械学習です。

[[433050]]

ユーザーが対象セルに「=」記号を含む数式を入力し始めると、システムは履歴テーブル内の数式のパターンを学習して、そのセルに関連する可能性のある数式を生成します。モデルは、ターゲット セルとヘッダー行の隣接する行と列のデータをコンテキストとして使用します。

まず、隣接するセルとヘッダー セルで構成されるテーブルのコンテキスト構造を埋め込みにエンコードし、次にこのコンテキスト埋め込みを使用して必要なテーブル式を生成します。

数式生成部分は、次の 2 つのコンポーネントで構成されます。

  1. 演算子シーケンス(例:sum、if など)
  2. 演算子が適用されるテーブル範囲 (例: A2:A10)。

現在、Google スプレッドシートのユーザーはこの機能を正式に使用できます。

モデルで使用されるアーキテクチャは、依然としてエンコーダー-デコーダーです。この構造により、研究者はさまざまな種類のコンテキスト情報 (隣接する行、列、タイトルなどに含まれる情報など) をエンコーダーに柔軟に埋め込むことができ、デコーダーはこの構造を使用して必要な数式を生成できます。

テーブル コンテキストの埋め込みを計算するには、まず BERT ベースのモデル アーキテクチャを使用して、ターゲット セル (およびヘッダー行) の近くの複数の行をエンコードします。各セルの内容には、そのデータ型 (数値、文字列など) と値が含まれており、同じ行のセルの内容は BERT エンコーダーへの入力用にトークン シーケンスに連結されます。

同様に、モデルはターゲット セルの左右の複数の列をエンコードし、2 つの BERT エンコーダーで行と列の畳み込みを実行して、コンテキストの集約された表現を計算します。

デコーダーは LSTM を使用して、必要なターゲット式をトークン シーケンスとして生成します。まず、モデルは数式演算子で構成される数式構造(数式スケッチ)を予測し、次に対象セルに関連するセルアドレスを使用して対応する範囲を生成します。

このモデルは、アテンション メカニズムを使用してヘッダーとセル データのアテンション ベクトルを計算し、予測を行う前にこれらのアテンション ベクトルを LSTM 出力層に直接接続します。

このモデルは、隣接する行と列のデータを活用するだけでなく、最上位のワークシート構造 (ヘッダーなど) からの追加情報も活用し、モデルの予測に TPU を使用することで、数式の提案が低レイテンシで生成され、より少ないマシンでより多くのリクエストを処理できるようになります。

モデルのトレーニング データセットは、主に Google によって作成され、Google と共有されているスプレッドシートのコーパスです。データセットには 46,000 個の Google スプレッドシートが含まれており、そのうち 42,000 個はトレーニングに、2,300 個は検証に、1,700 個はテストに使用されます。

実験結果によると、モデルの完全な数式精度は 42.5%、完全な数式フレームワーク精度は 57.4% でした。これら 2 つの指標の精度は、製品の発売をサポートし、初期ユーザーにサービスを提供するのに十分な高さです。そして、製品がより多くのデータを収集するにつれて、精度は確実に向上します。

研究者らはまた、さまざまなコンポーネントを削除してモデルのいくつかの簡略化されたバージョンをテストするアブレーション実験を実施し、行と列に基づくコンテキスト埋め込みとタイトル情報がモデルのパフォーマンスに非常に重要であることを発見しました。

今後、この分野では、より多くの表構造を組み込むための新しいモデル アーキテクチャの設計や、バグ検出やスプレッドシートでの自動グラフ作成などのより多くのアプリケーションをサポートするようにモデルを拡張するなど、さらなる研究が行われる可能性があります。

<<:  パドルパドル中国ツアーは、中小企業のソフトウェアおよびハードウェア製品の革新の需要に応えるために深センに上陸しました

>>:  成功するビジネス インテリジェンス戦略を開発する方法

ブログ    
ブログ    

推薦する

人工知能とモノのインターネットの統合後の応用シナリオは何ですか?

人工知能 (AI) とモノのインターネット (IoT) の技術トレンドが融合し始めており、業界ではこ...

負荷分散アルゴリズムのQ&A集

前に学んだように、負荷分散アルゴリズムがこの技術の核心です。アルゴリズムの仕様がなければ、この技術は...

NetEase はデータ指標の異常をどのように検出し、診断するのでしょうか?

1. 背景指標はビジネスと密接に関係しており、その価値は、問題点やハイライトを発見し、タイムリーに...

ガートナーは、中国企業が平均5つ以上のAIユースケースを展開しているというレポートを発表した。

最近、ガートナーは中国企業が人工知能プロジェクトをプロトタイプから生産へと移行していることを示す最新...

エッジコンピューティング時代の到来は AI にどのような影響を与えるのでしょうか?

[[270834]]近年、人工知能はテクノロジー界で注目されている分野です。中国では、Megvii...

...

古代のLRから始まる初心者でもわかるレコメンデーションアルゴリズム入門

[[386397]]みなさんこんにちは。私は、気づかないうちに長い間、推薦システムに取り組んできまし...

魔法の顔認識: たとえマスクやサングラスをかけていても、身近な人を認識できるのはなぜでしょうか?

見知らぬ人々の集団の中に見覚えのある人を見つけたり、とても見覚えのある顔を見かけたりします。その人は...

よく使われるソートアルゴリズムの比較と分析

1. よく使われるソートアルゴリズムの簡単な説明以下では、主にソートアルゴリズムの基本的な概念と原則...

機械学習の背後にある数学的なバックボーンを理解するのに役立つ5冊の本

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

今後3~5年で、機械学習の人材が不足する領域はどこでしょうか?

基本的な紹介学術的なニーズを別にすれば、ほとんどの人はアルゴリズムの研究に従事するのではなく、第一線...

...

...

...