数式ビルダーのテーブルバージョンが登場しました。交通大学の ACM クラスを卒業し、バークレーで博士号を取得した Chen Xinyun さんは、ICML 2021 での新しい仕事として Google に入社しました。彼女は自動的に数式を完成させることができ、テスト段階での精度は 57.4% です。この機能は Google スプレッドシートでご利用いただけるようになりました。ぜひお試しください。 Excel は最も身近な見知らぬ人と言えます。私たちは毎日 Excel を使用していますが、その高度な使い方はあまり多くありません。 数式を記述することは Excel の重要な機能です。数式を使用すると、データに対して複雑な分析や変換を実行できます。しかし、スプレッドシートの数式言語はプログラミング言語よりも習得しやすいとはいえ、数式の記述は依然として複雑であり、1 つの記号を誤って計算するとエラーが発生する可能性があります。 2014年にGoogleは、表内のパターンを自動的に識別して各列の欠損値を埋めることができるスマートオートフィルというツールを開発しました。主な手法は、機械学習アルゴリズムを使用して新しいデータを予測することです。 たとえば、テーブルには、使用されている車両の 4 つの特性 (年式、走行距離、ドアの数、車両の種類 (乗用車またはトラック)) が含まれており、車両の価格はこれらの 4 つの特性に基づいて決定されます。これは典型的なデータ分析および予測シナリオであり、アルゴリズムを使用して、テーブルにすでで提供されているデータ (トレーニング セットとして) に基づいて、欠落している価格を推定できます。 このツールは良いのですが、複雑な数式を学習できず、手動での修正も非常に面倒です。 2021 年に早送りすると、シーケンス モデルにおける BERT のパワーを活用して、Google は ICML 2021 で、ターゲット ユニットの周囲のコンテキストに基づいて数式を自動的に生成できる新しいモデルを提案しました。 論文の第一著者は、現在カリフォルニア大学バークレー校でドーン・ソン教授の指導を受けている博士課程の学生であるシンユン・チェン氏です。上海交通大学のACMクラスを卒業し、コンピュータサイエンスの学士号を取得。現在はDeepmindの研究インターンとして働いており、2019年と2020年にはGoogle Brainでインターンとして働いていました。彼の主な研究分野は、ニューラル ネットワーク プログラムの合成と敵対的機械学習です。 ユーザーが対象セルに「=」記号を含む数式を入力し始めると、システムは履歴テーブル内の数式のパターンを学習して、そのセルに関連する可能性のある数式を生成します。モデルは、ターゲット セルとヘッダー行の隣接する行と列のデータをコンテキストとして使用します。 まず、隣接するセルとヘッダー セルで構成されるテーブルのコンテキスト構造を埋め込みにエンコードし、次にこのコンテキスト埋め込みを使用して必要なテーブル式を生成します。 数式生成部分は、次の 2 つのコンポーネントで構成されます。
現在、Google スプレッドシートのユーザーはこの機能を正式に使用できます。 モデルで使用されるアーキテクチャは、依然としてエンコーダー-デコーダーです。この構造により、研究者はさまざまな種類のコンテキスト情報 (隣接する行、列、タイトルなどに含まれる情報など) をエンコーダーに柔軟に埋め込むことができ、デコーダーはこの構造を使用して必要な数式を生成できます。 テーブル コンテキストの埋め込みを計算するには、まず BERT ベースのモデル アーキテクチャを使用して、ターゲット セル (およびヘッダー行) の近くの複数の行をエンコードします。各セルの内容には、そのデータ型 (数値、文字列など) と値が含まれており、同じ行のセルの内容は BERT エンコーダーへの入力用にトークン シーケンスに連結されます。 同様に、モデルはターゲット セルの左右の複数の列をエンコードし、2 つの BERT エンコーダーで行と列の畳み込みを実行して、コンテキストの集約された表現を計算します。 デコーダーは LSTM を使用して、必要なターゲット式をトークン シーケンスとして生成します。まず、モデルは数式演算子で構成される数式構造(数式スケッチ)を予測し、次に対象セルに関連するセルアドレスを使用して対応する範囲を生成します。 このモデルは、アテンション メカニズムを使用してヘッダーとセル データのアテンション ベクトルを計算し、予測を行う前にこれらのアテンション ベクトルを LSTM 出力層に直接接続します。 このモデルは、隣接する行と列のデータを活用するだけでなく、最上位のワークシート構造 (ヘッダーなど) からの追加情報も活用し、モデルの予測に TPU を使用することで、数式の提案が低レイテンシで生成され、より少ないマシンでより多くのリクエストを処理できるようになります。 モデルのトレーニング データセットは、主に Google によって作成され、Google と共有されているスプレッドシートのコーパスです。データセットには 46,000 個の Google スプレッドシートが含まれており、そのうち 42,000 個はトレーニングに、2,300 個は検証に、1,700 個はテストに使用されます。 実験結果によると、モデルの完全な数式精度は 42.5%、完全な数式フレームワーク精度は 57.4% でした。これら 2 つの指標の精度は、製品の発売をサポートし、初期ユーザーにサービスを提供するのに十分な高さです。そして、製品がより多くのデータを収集するにつれて、精度は確実に向上します。 研究者らはまた、さまざまなコンポーネントを削除してモデルのいくつかの簡略化されたバージョンをテストするアブレーション実験を実施し、行と列に基づくコンテキスト埋め込みとタイトル情報がモデルのパフォーマンスに非常に重要であることを発見しました。 今後、この分野では、より多くの表構造を組み込むための新しいモデル アーキテクチャの設計や、バグ検出やスプレッドシートでの自動グラフ作成などのより多くのアプリケーションをサポートするようにモデルを拡張するなど、さらなる研究が行われる可能性があります。 |
<<: パドルパドル中国ツアーは、中小企業のソフトウェアおよびハードウェア製品の革新の需要に応えるために深センに上陸しました
>>: 成功するビジネス インテリジェンス戦略を開発する方法
機械学習システムを分類する 1 つの方法は、一般化の程度によって分類することです。ほとんどの機械学習...
自動化の需要が継続的に高まっているため、ロボット産業の発展は加速段階に入り、わが国のロボット市場は最...
人工知能は長年にわたって世界を支配しており、さまざまな分野における主要な問題が AI を使用して解決...
基礎知識がない人でも機械学習に切り替えることは可能ですか?機械学習には一定の数学的基礎が必要であり、...
表紙ニュース記者 孟美 張悦希休日明けの初日、北京冬季オリンピックも競技3日目に入った。スタジアム内...
IT リーダーが、人工知能と機械学習を使用してビジネス上の洞察を得る方法を共有します。組織が顧客の好...
データセンターのワークロードが急増し続ける中、効率性を向上させてコストを削減しながら IT チームの...
ネットワークが自動化とインテリジェンス化に向かうにつれ、ネットワークの問題をプログラムで特定し、...
最近の大物モデルの多くは数学が得意だと主張していますが、本当に才能があるのは誰でしょうか?テスト問題...
近年、交通と環境に対する要求が継続的に高まっており、わが国の新エネルギー自動車は急速な発展を遂げてい...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
新たなスタープロジェクトが誕生! AI 開発者コンパニオンである GPT Pilot を使用すると、...