誇張する! EMNLPには約5,000本の論文が提出され、賞が発表されました。北京大学とテンセントが最優秀長編論文賞を受賞しました。

誇張する! EMNLPには約5,000本の論文が提出され、賞が発表されました。北京大学とテンセントが最優秀長編論文賞を受賞しました。

EMNLP は自然言語処理の分野におけるトップカンファレンスの 1 つです。EMNLP 2023 は 12 月 6 日から 10 日までシンガポールで開催されます。

今年の ChatGPT の人気により、ビッグモデルと NLP の概念が推進されたため、EMNLP 2023 の提出論文数は ACL 2023 をわずかに上回る 5,000 件近くに達しました。

採択率で見ると、長文論文の採択率は23.3%、短文論文の採択率は14%、全体の採択率は21.3%でした。この数字は、EMNLP 2022 の 20% よりわずかに高いです。

EMNLPの現地議長であるLi Haizhou氏が発表したPPTから、この会議の発展プロセスを理解することができます。

これらの論文データに加えて、今年のEMNLP受賞論文も大きな注目を集めました。

EMNLP 2023 では、最優秀ロングペーパー、最優秀ショートペーパー、最優秀テーマペーパー、最優秀デモペーパー、最優秀インダストリーペーパーの各賞が授与され、また、さまざまなトラックでいくつかの優れたペーパーが受賞しました。

同時に、EMNLP 2024が2024年11月12日から16日までフロリダ州マイアミで開催されることが正式に発表されました。

EMNLP 2023 ベストロングペーパー

論文タイトル: ラベル語はアンカーである: 文脈内学習を理解するための情報フローの観点


  • 論文アドレス: https://aclanthology.org/2023.emnlp-main.609.pdf
  • 機関: 北京大学、テンセントWeChat AI

概要: コンテキスト学習は、大規模言語モデル (LLM) にさまざまなタスクを実行するデモンストレーション例を提供するため、有望な機械学習アプローチとなります。ただし、LLM が提供されたコンテキストからどのように学習するかという基本的なメカニズムはまだ調査中です。

そこで、北京大学とテンセントWeChat AIの研究者たちは、情報の流れの観点から文脈学習の動作メカニズムを調査しました。研究結果によると、デモンストレーション例のラベル語はアンカーの役割を果たしており、それは次の 2 つの側面で現れています。

  • 意味情報は、浅い計算層での処理中にラベル単語表現に集約されます。
  • ラベルワードに統合された情報は、LLM の最終予測の参照として機能します。

これらの調査結果に基づいて、研究者らは、文脈学習のパフォーマンスを向上させるアンカー再重み付け法、推論を加速するためのデモンストレーション圧縮技術、およびGPT2-XLにおける文脈学習エラーを判断するための分析フレームワークを提案しました。

研究者によって提唱された仮説。浅い層では、ラベル ワードがデモンストレーションから情報を収集して、より深い処理のための意味表現を形成します。深い層では、ラベル ワードからこの情報を抽出して利用し、最終的な予測を形成します。

この研究の結果は有望な応用が可能であり、文脈学習の動作メカニズムを改めて検証し、将来の研究への道を開くものである。

GPT2-XL と GPT-J でのさまざまな圧縮方法の結果の比較。

EMNLP 2023 ベストショートペーパー

論文タイトル: 信頼度に基づく枝刈りによる高速最小ベイズリスクデコード


  • 論文アドレス: https://aclanthology.org/2023.emnlp-main.767.pdf
  • 機関: ケンブリッジ大学

概要: 最小ベイズリスク (MBR) デコードは、モデル分布上の効用関数に対して最も高い期待効用を持つ仮説を出力します。条件付き言語生成問題、特にニューラル機械翻訳では、人間と自動の両方の評価においてビームサーチの精度を上回ります。ただし、標準的なサンプリングベースの MBR アルゴリズムの計算コストは​​ビーム検索よりもはるかに高く、多数のサンプルとユーティリティ関数への二次呼び出しが必要になるため、適用範囲が制限されます。

この論文では、ブートストラップ サンプリングから得られた信頼度推定値が最高の効用を持つ可能性が低い仮説を削減しながら、効用を推定するために使用されるサンプル数を徐々に増やす MBR アルゴリズムを紹介します。標準の MBR と比較すると、この方法では必要なサンプル数が少なくなり、ユーティリティ関数の呼び出し回数が大幅に少なくなり、同等の精度が達成されます。

アルゴリズム 2: 信頼度ベースのプルーニング関数。

研究者らは、chrF++ と COMET を有用性/評価指標として使用し、3 つの言語ペアでの実験でこの方法の有効性を実証しました。

実験結果。

EMNLP 2023 ベストテーマペーパー

論文タイトル: このタイトルを無視して HackAPrompt: グローバル プロンプト ハッキング コンテストを通じて LLM の体系的な脆弱性を明らかにする


  • 論文アドレス: https://aclanthology.org/2023.emnlp-main.302.pdf
  • 機関: メリーランド大学、Mila、Towards AI、スタンフォード大学など。

概要: 大規模言語モデル (LLM) は、チャットボットやライティング アシスタントなど、ユーザーが直接参加するインタラクティブな環境に導入されることがよくあります。これらのデプロイメントは、ジャストインタイムの「インジェクション」と「ジェイルブレイク」(総称してジャストインタイム ハッキングと呼ばれる)に対して脆弱であり、モデルが操作されて元の指示を無視し、潜在的に悪意のある指示に従うことになります。これが重大なセキュリティ上の脅威であることは広く認識されているにもかかわらず、インスタントハッキングに関する定量的な研究は比較的少ないままです。

そのため、本研究では、自由形式の人工入力攻撃を許可する世界的なインスタントハッキングコンテストを開始し、3 つの SOTA LLM に対して 600,000 を超える敵対的プロンプトを提案しました。実験結果は、現在の LLM がインスタント ハッキング攻撃によって実際に操作される可能性があることを示しています。

プロンプトハッカー技術分類。

EMNLP 2023 ベストデモペーパー

PaperMage: 視覚的に豊かな科学文書を処理、表現、操作するための統合ツールキット


  • 論文アドレス: https://aclanthology.org/2023.emnlp-demo.45.pdf
  • 機関: アレン人工知能研究所、MIT、カリフォルニア大学バークレー校、ワシントン大学、ノースウェスタン大学

概要: 科学研究分野の学術文献は複雑かつ理論的であることが多く、そのほとんどは PDF 形式です。文献を参照するには多くの時間がかかります。この問題を解決するために、本論文では、視覚的に豊かで構造化された科学文書を分析および処理するためのオープンソースの Python ツールキット papermage を提案します。

Papermage は、さまざまな SOTA NLP および CV モデルを統一されたフレームワークに統合することで、科学文献の明確で直感的な抽象化を提供し、一般的な科学文書の処理ユースケースを提供します。学術文献検索エンジン Semantic Sc​​holar のサポートにより、papermage はすでに複数の AI アプリケーション研究プロトタイプの科学文献を処理できます。

EMNLP 2023 最優秀業界論文

論文タイトル: 音声対応会話システムのためのグローバルインデックスによるパーソナライズされた高密度検索


  • 論文アドレス: https://aclanthology.org/2023.emnlp-industry.9.pdf
  • 組織: Amazon Alexa AI 研究チーム

論文概要: 音声制御 AI 対話システムは、音声変動ノイズの影響を受けやすく、あいまいなエンティティを解決するのが困難です。通常、これらのエラー モードから回復するために、パーソナライズされたエンティティ解決 (ER) とクエリ書き換え (QR) が展開されます。これまでの研究では、検索空間をユーザーのデバイスとの過去のやり取りから構築されたパーソナライズされたインデックスに制限することでパーソナライズを実現しています。この制限された検索では高い精度が達成されますが、予測はユーザーの最近の履歴内のエンティティに限定されるため、将来のリクエストに対して広範囲に及ぶことはありません。さらに、多数のユーザーに対して単一のインデックスを維持することは、メモリを大量に消費し、拡張が困難になります。

この論文では、パーソナライズされたインデックス作成に限定されず、音声ノイズや曖昧さに対して堅牢なパーソナライズされたエンティティ検索システムを提案します。研究者たちは、検索に使用されるコンテキストクエリの埋め込みにユーザーのリスニングの好みを組み込みました。彼らは、提案されたモデルが複数のエラーパターンを修正する能力を実証し、エンティティ検索タスクのベースラインに対して 91% の改善を達成しました。また、エンドツーエンドのアプローチを最適化して、オンラインレイテンシの制約を満たしながらパフォーマンスの向上を維持しました。

その他の優秀論文賞

上記の賞に加えて、EMNLP 2023の役員は、いくつかのトラックで優秀論文賞も授与しました。たとえば、ペンシルベニア州立大学の研究者による論文「感情の問題:感情分析の解体に向けた批判的調査」は、感情分析、文体分析、議論マイニングのトラックで優秀論文賞を受賞しました。

画像出典: https://twitter.com/PranavVenkit/status/1733856362214674848

チューリッヒのスイス連邦工科大学(ETH)のポスドク研究員であるイーサン・ゴットリーブ・ウィルコックス氏が共同執筆した2つの論文が優秀論文賞を受賞しました。

画像出典: https://twitter.com/weGotlieb/status/1733794210074243348

ティルブルフ大学とアムステルダム大学の研究者による論文「同音異義語の明確化により音声変換器における文脈混合のパターンが明らかに」も優秀論文賞を受賞した。

画像出典: https://twitter.com/gchrupala/status/1733788397976650154

<<:  ゼロワンエブリシングYi-34B-Chat微調整モデルがオンラインになり、複数の権威あるリストに掲載されました

>>:  1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

ブログ    
ブログ    
ブログ    

推薦する

人工知能との競争において、カスタマーサービスと宅配業者が勝つ可能性はどれくらいでしょうか?

[[409291]]労働日報記者 イェ・ユン・チェン・ニン 写真家 チェン・ニン編集者注人工知能(...

AIによるパスワードの盗難を防ぐ方法

翻訳者 | 陳俊レビュー | Chonglou現在、人工知能 (AI) アプリケーションの人気と急速...

クイックソートアルゴリズムの実装と最適化

[[385051]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

...

中国、自動運転を含む情報技術の注目の10大問題を発表

ハルビンで開催された2019年中国科学技術協会年次大会において、情報技術分野のハイエンドシンクタンク...

ジオメトリテクスチャ再構築における新しい SOTA!浙江大学がSIFUを提案:一枚の画像で高品質の3D人体モデルを再構築可能

AR、VR、3Dプリント、シーン構築、映画制作など多くの分野において、衣服を着た人体の高品質な3Dモ...

...

楊振:ビッグデータとAI技術の発展の観点から、クロスチェーン技術は必要かつ不可避である

著者: 楊振、上級ソフトウェアエンジニア、アーキテクト、独立講師。ソフトウェア開発経験18年。『Et...

...

【専門家がここにいるエピソード6】インタラクションのための人工知能

[51CTO.comからのオリジナル記事] 今回のライブ番組「ビッグネームがやってくる」のゲストは、...

R言語におけるAprioriアルゴリズムの応用

[[193979]] I. コンセプト関連性分析は、大規模なデータセットに隠された意味のあるつながり...

...

感じてください:XiaoIce、XiaoAi、Xiaodu、LingyuanがAIサミットのテーマソングを共同で歌いました

7月9日、 2020年世界人工知能大会クラウドサミットのテーマソング「スマートコネクテッドホーム」が...

科学者らが自己再生材料に使える3Dプリント「生きたインク」を開発

[[437285]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

資本の饗宴は続く:2021年上半期の生体認証分野における資金調達のレビュー

近年、5Gが話題になっていますが、AIはまだ時代遅れになっていません。特に、インターネットが普及し、...