EMNLP は自然言語処理の分野におけるトップカンファレンスの 1 つです。EMNLP 2023 は 12 月 6 日から 10 日までシンガポールで開催されます。 今年の ChatGPT の人気により、ビッグモデルと NLP の概念が推進されたため、EMNLP 2023 の提出論文数は ACL 2023 をわずかに上回る 5,000 件近くに達しました。 採択率で見ると、長文論文の採択率は23.3%、短文論文の採択率は14%、全体の採択率は21.3%でした。この数字は、EMNLP 2022 の 20% よりわずかに高いです。 EMNLPの現地議長であるLi Haizhou氏が発表したPPTから、この会議の発展プロセスを理解することができます。 これらの論文データに加えて、今年のEMNLP受賞論文も大きな注目を集めました。 EMNLP 2023 では、最優秀ロングペーパー、最優秀ショートペーパー、最優秀テーマペーパー、最優秀デモペーパー、最優秀インダストリーペーパーの各賞が授与され、また、さまざまなトラックでいくつかの優れたペーパーが受賞しました。 同時に、EMNLP 2024が2024年11月12日から16日までフロリダ州マイアミで開催されることが正式に発表されました。 EMNLP 2023 ベストロングペーパー論文タイトル: ラベル語はアンカーである: 文脈内学習を理解するための情報フローの観点
概要: コンテキスト学習は、大規模言語モデル (LLM) にさまざまなタスクを実行するデモンストレーション例を提供するため、有望な機械学習アプローチとなります。ただし、LLM が提供されたコンテキストからどのように学習するかという基本的なメカニズムはまだ調査中です。 そこで、北京大学とテンセントWeChat AIの研究者たちは、情報の流れの観点から文脈学習の動作メカニズムを調査しました。研究結果によると、デモンストレーション例のラベル語はアンカーの役割を果たしており、それは次の 2 つの側面で現れています。
これらの調査結果に基づいて、研究者らは、文脈学習のパフォーマンスを向上させるアンカー再重み付け法、推論を加速するためのデモンストレーション圧縮技術、およびGPT2-XLにおける文脈学習エラーを判断するための分析フレームワークを提案しました。 研究者によって提唱された仮説。浅い層では、ラベル ワードがデモンストレーションから情報を収集して、より深い処理のための意味表現を形成します。深い層では、ラベル ワードからこの情報を抽出して利用し、最終的な予測を形成します。 この研究の結果は有望な応用が可能であり、文脈学習の動作メカニズムを改めて検証し、将来の研究への道を開くものである。 GPT2-XL と GPT-J でのさまざまな圧縮方法の結果の比較。 EMNLP 2023 ベストショートペーパー論文タイトル: 信頼度に基づく枝刈りによる高速最小ベイズリスクデコード
概要: 最小ベイズリスク (MBR) デコードは、モデル分布上の効用関数に対して最も高い期待効用を持つ仮説を出力します。条件付き言語生成問題、特にニューラル機械翻訳では、人間と自動の両方の評価においてビームサーチの精度を上回ります。ただし、標準的なサンプリングベースの MBR アルゴリズムの計算コストはビーム検索よりもはるかに高く、多数のサンプルとユーティリティ関数への二次呼び出しが必要になるため、適用範囲が制限されます。 この論文では、ブートストラップ サンプリングから得られた信頼度推定値が最高の効用を持つ可能性が低い仮説を削減しながら、効用を推定するために使用されるサンプル数を徐々に増やす MBR アルゴリズムを紹介します。標準の MBR と比較すると、この方法では必要なサンプル数が少なくなり、ユーティリティ関数の呼び出し回数が大幅に少なくなり、同等の精度が達成されます。 アルゴリズム 2: 信頼度ベースのプルーニング関数。 研究者らは、chrF++ と COMET を有用性/評価指標として使用し、3 つの言語ペアでの実験でこの方法の有効性を実証しました。 実験結果。 EMNLP 2023 ベストテーマペーパー論文タイトル: このタイトルを無視して HackAPrompt: グローバル プロンプト ハッキング コンテストを通じて LLM の体系的な脆弱性を明らかにする
概要: 大規模言語モデル (LLM) は、チャットボットやライティング アシスタントなど、ユーザーが直接参加するインタラクティブな環境に導入されることがよくあります。これらのデプロイメントは、ジャストインタイムの「インジェクション」と「ジェイルブレイク」(総称してジャストインタイム ハッキングと呼ばれる)に対して脆弱であり、モデルが操作されて元の指示を無視し、潜在的に悪意のある指示に従うことになります。これが重大なセキュリティ上の脅威であることは広く認識されているにもかかわらず、インスタントハッキングに関する定量的な研究は比較的少ないままです。 そのため、本研究では、自由形式の人工入力攻撃を許可する世界的なインスタントハッキングコンテストを開始し、3 つの SOTA LLM に対して 600,000 を超える敵対的プロンプトを提案しました。実験結果は、現在の LLM がインスタント ハッキング攻撃によって実際に操作される可能性があることを示しています。 プロンプトハッカー技術分類。 EMNLP 2023 ベストデモペーパーPaperMage: 視覚的に豊かな科学文書を処理、表現、操作するための統合ツールキット
概要: 科学研究分野の学術文献は複雑かつ理論的であることが多く、そのほとんどは PDF 形式です。文献を参照するには多くの時間がかかります。この問題を解決するために、本論文では、視覚的に豊かで構造化された科学文書を分析および処理するためのオープンソースの Python ツールキット papermage を提案します。 Papermage は、さまざまな SOTA NLP および CV モデルを統一されたフレームワークに統合することで、科学文献の明確で直感的な抽象化を提供し、一般的な科学文書の処理ユースケースを提供します。学術文献検索エンジン Semantic Scholar のサポートにより、papermage はすでに複数の AI アプリケーション研究プロトタイプの科学文献を処理できます。 EMNLP 2023 最優秀業界論文論文タイトル: 音声対応会話システムのためのグローバルインデックスによるパーソナライズされた高密度検索
論文概要: 音声制御 AI 対話システムは、音声変動ノイズの影響を受けやすく、あいまいなエンティティを解決するのが困難です。通常、これらのエラー モードから回復するために、パーソナライズされたエンティティ解決 (ER) とクエリ書き換え (QR) が展開されます。これまでの研究では、検索空間をユーザーのデバイスとの過去のやり取りから構築されたパーソナライズされたインデックスに制限することでパーソナライズを実現しています。この制限された検索では高い精度が達成されますが、予測はユーザーの最近の履歴内のエンティティに限定されるため、将来のリクエストに対して広範囲に及ぶことはありません。さらに、多数のユーザーに対して単一のインデックスを維持することは、メモリを大量に消費し、拡張が困難になります。 この論文では、パーソナライズされたインデックス作成に限定されず、音声ノイズや曖昧さに対して堅牢なパーソナライズされたエンティティ検索システムを提案します。研究者たちは、検索に使用されるコンテキストクエリの埋め込みにユーザーのリスニングの好みを組み込みました。彼らは、提案されたモデルが複数のエラーパターンを修正する能力を実証し、エンティティ検索タスクのベースラインに対して 91% の改善を達成しました。また、エンドツーエンドのアプローチを最適化して、オンラインレイテンシの制約を満たしながらパフォーマンスの向上を維持しました。 その他の優秀論文賞上記の賞に加えて、EMNLP 2023の役員は、いくつかのトラックで優秀論文賞も授与しました。たとえば、ペンシルベニア州立大学の研究者による論文「感情の問題:感情分析の解体に向けた批判的調査」は、感情分析、文体分析、議論マイニングのトラックで優秀論文賞を受賞しました。 画像出典: https://twitter.com/PranavVenkit/status/1733856362214674848 チューリッヒのスイス連邦工科大学(ETH)のポスドク研究員であるイーサン・ゴットリーブ・ウィルコックス氏が共同執筆した2つの論文が優秀論文賞を受賞しました。 画像出典: https://twitter.com/weGotlieb/status/1733794210074243348 ティルブルフ大学とアムステルダム大学の研究者による論文「同音異義語の明確化により音声変換器における文脈混合のパターンが明らかに」も優秀論文賞を受賞した。 画像出典: https://twitter.com/gchrupala/status/1733788397976650154 |
<<: ゼロワンエブリシングYi-34B-Chat微調整モデルがオンラインになり、複数の権威あるリストに掲載されました
>>: 1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能
2023 年には、AI、ML、特に GenAI があらゆるところに存在しますが、内容よりもパフォーマ...
海外メディアの報道によると、ハーバード大学ジョン・A・ポールソン工学・応用科学大学院(SEAS)とカ...
サイバーセキュリティは、攻撃と防御の継続的なゲームです。防御戦略が進化し続ける一方で、攻撃者も攻撃の...
株式市場が始まって以来、人々はシステムを悪用し、市場に勝とうとしてきました。長年にわたり、人々は何千...
導入ほとんどすべての人が、家族や友人と一緒に映画を観ながら余暇を過ごすのが好きです。誰でもこんな経験...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
7月29日のニュース、海外メディアの報道によると、マイクロソフトは投資家に対し、グラフィックス・プロ...
たった今、百度が公式発表しました。自動運転車は2018年に量産される予定です。 Subversion...
本日、DeepMind の「Alpha」ファミリーに新しいメンバーが加わりました。プログラミング競技...
2019年、「5G」は大いに期待されるテクノロジーの流行語となり、その人気は間違いなく人工知能に劣り...
検索エンジン(Google Chrome、Mozilla Firefox など)を使用するとき、バッ...
バックトラッキングアルゴリズムとは何ですか? Baidu 百科事典では、バックトラッキング アルゴリ...
現在、米国は人工知能分野で世界をリードしているが、中国も急速に追い上げており、中国がその主導的能力を...
私たちが目を覚ましたとき、機械学習コミュニティは大騒ぎしていました。最新の研究により、GPT-3 に...
映画では必ず蘇生のシーンが出てきますが、現実の世界でも人間を冷凍保存するプロジェクトがあります。その...