1. 現状と問題点1. 現状と問題点Cloud Music データ ウェアハウス プラットフォームは、6 年以上にわたってオンラインになっています。現在、700 人以上のユーザー (元従業員を含む) と 200 を超える毎日の UV があり、データ ウェアハウス開発、データ製品、アナリスト、アルゴリズム、ビジネス開発、QA など、ほぼすべての役割の開発者が関与しています。音楽のすべてのビジネス ラインをカバーします。代表的なビジネス タイプには、インデックス構築、機能開発、コンテンツ監視、レポート作成、オンライン統計などがあります。クラウド音楽ビジネスが今日まで発展するにつれ、あらゆる部門の業務はビッグデータ処理と切り離せないものとなっています。すべての開発は、多かれ少なかれビッグデータ処理にさらされることになります。現在、プラットフォーム上には 1,600 を超えるリアルタイム タスクと 7,000 ~ 8,000 のオフライン タスクがあり、そのうち 80% 以上が SQL タスクです。現在、Cloud Music クラスター全体の純粋なコンピューティング ノード サイズは約 2,000 台以上で、毎日の生のログの量は 1,000 億を超えています。 2. プラットフォームのアイデアプラットフォーム構築の背後にある考え方は、テクノロジーとビジネスを結び付け、テクノロジーとビジネスを統合し、プラットフォームを通じてデータをより効率的に使用できるようにする架け橋になることです。私たちは、クラウドミュージックという垂直ビジネスのデータプラットフォームチームとして位置づけられています。グループ全体からというよりは、音楽業界内部からの需要が多いです。そのため、グループプラットフォーム上のデータプラットフォームや一般的なクラウドサービスと比較すると、私たちはよりビジネスに近い存在であり、私たちのツールはよりビジネス志向です。汎用的なデータ開発プラットフォームは一般的な機能を開放する傾向があり、業務プロセスの仕様に合わせてカスタマイズされることはありません。それとは異なり、私たちは内部の仕様とニーズに基づいてプラットフォーム機能をカスタマイズし、業務を深く理解し、業務ニーズと開発の問題点を理解し、完全なソリューションセットを提供する必要があります。同時に、私たちは業務側のコストについてもより懸念しており、全体的な使用がより経済的になり、業務のコストが節約されることを願っています。 3. 全体的なアーキテクチャ当社の全体的な機能は、クラスター サービス上に構築されています。グループ サービスは、一般的なデータ処理およびガバナンス機能を提供します。たとえば、Flink に基づくリアルタイム タスク開発プラットフォーム sloth は、一般的なリアルタイム データ処理機能を提供し、リアルタイム データの SQL 処理をサポートします。オフライン開発プラットフォーム mammoth は、一般的なオフライン タスクの送信、スケジュール設定、および管理機能を提供し、MR、SparkSQL、Jar、HiveSQL などのタスク タイプをサポートします。メタデータ センターは、一般的なデータ ウェアハウス メタデータ管理機能と系統追跡機能を提供します。Ranger に基づくセキュリティ センターは、一般的な権限管理の基本機能を提供します。グループが提供する包括的な基本機能を基に、Cloud Musicの内部仕様と要件に応じてパッケージ化およびカスタマイズし、プラットフォーム上に業務仕様を実装し、ベストプラクティスを統合することで、ユーザーはプラットフォーム上で業務データ処理タスクをより低い敷居とコストで、より高い効率と品質で完了できるようになりました。 現在、プラットフォーム上のタスクの80%以上は、プラットフォーム上のカスタマイズされたコンポーネントによって完了しています。プラットフォーム上のタスクについては、ビジネスニーズとタスクの特性をよりよく理解できます。同時に、ユーザータスクに対する制御度が向上し、ユーザーが意識することなく、より便利にバッチで最適化できるため、開発品質が向上し、その後のガバナンス作業に大きな助けになります。もちろん、これは諸刃の剣でもあります。実装と介入が増えると、運用と保守のプレッシャーも大きくなります。また、開発品質とチームメンバーの能力に対する大きな課題でもあります。コンポーネントのさまざまな適用シナリオをより包括的に検討する必要があります。 4. なぜこのようなガバナンスを行う必要があるのでしょうか?私たちが統治する理由はいくつかあります。
2. ガバナンス計画ガバナンス計画は主に 4 つの部分に分かれています。
ガバナンスを的確に捉え、迅速かつ効率的に成果を得るために、何を行う必要があるのか、現在の状況はどうなっているのか。
既存の歴史的タスクは多数あります。初期段階では、キャンペーンのような方法でガバナンスアクションを促進し、データ結果を迅速に取得し、全体的な水位を下げるために、いくつかの人間のアクションが必要です。
キャンペーン スタイルのガバナンス プロセスでは、タスクのリソース使用を最適化し、タスクの安定性を向上させ、コンピューティング クラスター全体と Kafka クラスターのリソース レベルを下げるための技術的な最適化も行いました。
上記の 3 つのタスクを完了した後、ガバナンス作業の持続的な発展も考慮する必要があります。これは 1 回限りの作業ではなく、常に人力によるキャンペーン スタイルのガバナンスに頼って問題を解決できるわけではありません。キャンペーン スタイルのガバナンスの能動的なメリットを、ユーザーが積極的にガバナンス行動を引き起こすことによる受動的なメリットに変換したいと考えています。 1.現状を理解する現状を把握するために、以下の作業を行いました。 グループの下位チームと協力して、グループのリソース監視サービス Smildon を統合し、クラスター内のすべてのタスクのリソース使用状況をリアルタイムで取得し、すべてのタスクで使用されるリソースとコストをカウントし、リソースとコストを直接お金に変換し、フロントエンドを通じてユーザーにリアルタイムのフィードバックを提供します。ユーザーの視点から見ると、ユーザーはタスクのコストを最も直接的に認識できるため、リソースの使用時に慎重になります。同時に、プラットフォームがユーザーガバナンスを促進すると、ユーザーはより協力的になります。プラットフォームの観点から、リソースの使用状況の全体像を把握し、最も多くのリソースを使用するタスクからガバナンスを開始し、リソース レベルを迅速に収束させることができます。 同時に、タスクの同時実行性と入力トラフィックの関係も収集し、すべてのタスクの単位同時処理量をカウントし、この指標を使用してプラットフォーム全体の処理能力を迅速に評価しました。この値の大きさに基づいて、リソース割り当てに問題がある可能性のあるタスクを迅速にスクリーニングして発見し、ガバナンスを効率的に最適化できます。 各部門のリソースの増加を制御するために、Smildon システムから部門ごとに収集されたリアルタイムのリソース使用状況データを統合し、論理的な仮想キューを構築して、各部門で使用されているリソースのおおよその量をリアルタイムでカウントします。次に、初期制限を設定します。制限を超えた場合は、容量を拡張するための申請プロセスを実行する必要があります。このプロセスベースのアプローチを使用して、その増加を制御します (図は仮想キューリソースを示しています)。 2. 効率的なガバナンス上記のデータ指標を使用すると、問題のあるタスクをすばやく除外し、すべてのタスクのリソース使用量やユニットの同時処理能力などの指標に基づいて順序を逆にし、関連するタスクをすばやく最適化および管理し、リソースを収束して、データ結果を取得できます。タスクの管理は主に以下のカテゴリに分けられます。 (1)第一に、オフラインでの無駄なタスク探索この操作の鍵となるのは、タスクがまだ使用中であるかどうかをどうやって判断するかです。現在、私たちの判断は、以下の点に基づいています。
(2)第二:タスク自体のリソースが不合理である前述の単一タスクで同時に処理されるデータ量の指標を通じて、不合理なリソース割り当てが発生する可能性が高いタスクを迅速に選別し、同時実行を調整してリソースを最適化することができます。当社のプラットフォーム ユーザーのほとんどはデータ開発のバックグラウンドを持っていないため、このようなケースはまだ多くあります。 (3)第三:トラフィックの縮小によりタスクリソース構成が冗長化されるまた、履歴トラフィックが大きいタスクも多くありますが、その後トラフィックは徐々に減少しましたが、タスクリソースはそれに応じて調整されず、全体のリソースの不合理な割り当てにもつながりました。今後は、データを使用してタスクの履歴処理能力を記録し、全体のリソースの合理性を判断することができます。 (4)第4:技術的な最適化全体的なリソース使用を最適化するために、Flink SQL の強化、全体的なパフォーマンスを最適化するための追加機能の追加、Kafka 書き込みの最適化、書き込みバッチの最適化による全体的な Kafka 水位の低下、パーティション化されたフロー テーブル技術の設計と開発、トラフィック使用量の最適化、無駄なメッセージ消費の削減、全体的な帯域幅と全体的なコンピューティング リソースの削減など、多くの技術的な最適化も行いました。これらについては、後で詳しく説明します。 3. 持続可能性持続可能な開発とは、ガバナンスの実践を通常の慣行にすることを意味し、この機能はまだ開発中です。前回の記事で述べたルールをガバナンスプラットフォームに実装し、自動化されたプロセスを通じてユーザーを促進し、問題のあるタスクを自動的にスキャンしてユーザーに通知することで、ユーザーが自発的に開発ガバナンスを行い、誰もがガバナンス作業に参加できるようにしたいと考えています。プラットフォームは、キャンペーンスタイルのガバナンスの積極的なメリットを自動化された受動的なメリットに変えます。 3. 技術的な最適化次に、Flink SQL 最適化、Kafka バッチ最適化、そして弊社が設計・開発した「パーティション ストリーム テーブル」の最適化の 3 つの部分に分けて技術的な最適化を紹介します。 1. Flink SQL 最適化Flink SQL のリリースにより、リアルタイム コンピューティングの開発敷居は大幅に下がり、開発効率は向上しましたが、いくつかの問題も発生しました。SQL の背後にあるロジックの不透明さは、ユーザーが制御できる範囲が狭くなることを意味し、不要なコンピューティング ロジックが生まれます。同時に、ユーザーが実行できる最適化方法の数も減少し、途中で多くのリソースが無駄になりました。いくつかの事例を使って説明してみましょう。 (1)ケース1:メッセージ逆シリアル化の最適化背景: ログ メッセージの形式は、userid\001os\001action\001logtime\001props です。 Props は JSON 形式であるため、フロー テーブルの読み取りプロセスでのパフォーマンスの低下のほとんどは、JSON の解析時に発生します。オフライン シナリオでは、列のトリミングを実行して必要なデータのみを読み取ることができます。ただし、リアルタイム シナリオでは、これはまだ成熟していません。props フィールドが必要かどうかに関係なく、FlinkSQL 自体がメッセージ全体を解析するため、多くのリソースが無駄になります。 この問題を解決するために、デシリアライゼーションにいくつかの最適化を行いました。ユーザーは、完全なログを解析する前に、いくつかの設定を使用してフィルタリングできます。たとえば、上図の 2 つの SQL 文の比較では、メッセージ全体を解析する前に、キーワード設定を通じてキーワード フィルタリングを実行し、「user-fm」キーワードを含まないすべてのメッセージをフィルタリングします。props を解析する前に、os.list と action.list を通じて冗長なメッセージをフィルタリングします。これらの設定により、大量の無駄なメッセージの解析が削減され、タスク全体のパフォーマンスが大幅に向上し、CPU 消費が削減されます。これらの最適化は多くの場合非常に効果的であり、極端な場合にはパフォーマンスの低下を 50% 以上削減できます。 オフライン シナリオでの列クリッピングと同様に、オンデマンド解析とオンデマンド逆シリアル化は継続的に最適化できます。現在、ユーザーは手動で構成する必要があります。最終的な目標は、ユーザーの選択フィールドと形式の実装に基づいて、列クリッピングの最適化を自動的に実行することです。 (2)ケース2:インデックス構築シナリオ2 番目のケースは、インデックス構築シナリオです。多くのインデックスは、複数のデータベース テーブルを関連付け、それらをインデックス エンジンに書き込み、フロントエンド ユーザーにクエリ用に提供することによって生成されます。一般的なプロセスは、ユーザーが Flink を介してデータベースの binlog ログをサブスクライブしてビジネス データベースのデータの変更を監視し、次に binlog 内のキー データを多数のビジネス DB テーブルに関連付けて大規模なワイド テーブルを生成し、最後に Flink を介してインデックス構築エンジンに書き込み、ユーザーがクエリできるようにするというものです。ここではいくつかの問題があります:
この 2 つを組み合わせると、全体的な処理パフォーマンスを水平方向に拡張できなくなります。Flink タスクの同時実行性をどのように拡張しても、メッセージを処理する同時タスクは常に 10 個だけであり、深刻なタスク遅延が発生します。 当社の最適化ソリューションは次のとおりです。
2. Kafka バッチ最適化前述のとおり、当社の Kafka クラスターは常に比較的高い水位にあり、ピーク時には 80% に達します。さらに、新しい追跡ポイント システムがまもなく開始され、トラフィックが 3 倍に増加することになります。 Kafka クラスター全体の水位を下げるために、次の操作を実行しました。
当初、当社の Kafka 運用保守システムは比較的単純で、監視指標も完璧ではなかったため、最適化作業を開始するのが困難でした。Kafka の水位が高い理由をより深く理解するために、Kafka コミュニティのソリューションを参考にして、非常に完全な監視システムを構築しました。比較的完全なデータ監視が得られ、最適化の方向性が示されました。監視データを通じて、次の問題が見つかりました。
Kakfa クラスターは、多くのビジネスにサービスを提供しています。各ビジネスには多くのメッセージ キュー トピックがあり、各トピックには多くのパーティションがあります。これらのパーティションは、クラスター内のマシンに分散されています。パーティションとマシンの関係は手動で維持されます。メッセージ パーティションの分散は不均一で、各パーティション メッセージのトラフィックのサイズも異なります。これにより、一部のマシンの負荷が高くなり、一部のマシンの負荷が低くなります。この領域に対する現在の最適化ソリューションは比較的単純で粗雑です。監視を通じて各マシンのトラフィック状況を直感的に把握し、PE はツールを使用してトピックのパーティション配分を手動で調整し、各マシンのトラフィックがバランスが取れて安定していることを保証します。この問題は、Kafka のオープンソース バージョンでもよく発生します。将来的には、ストレージとコンピューティングの分離というアーキテクチャ上の利点を活用してこの問題を解決するために、Kafka を Pulsar に置き換えることを検討します。
監視を通じて、Kafka の以前の高水位は主に処理スレッド プールの不足とディスク IO の多さによるものであり、全体的なメッセージ量は問題ないことがわかりました。さらに調査を進めた結果、メッセージ送信のバッチサイズ設定が効果的ではないことがわかりました。多くの場合、一度に送信されるメッセージは 1 つまたは 2 つだけです。このように、100 個のメッセージに対して 100 個のリクエストを送信する必要があり、Kafka メッセージ処理のスレッド ウォーター レベルが非常に高くなり、ディスク IO の動作頻度も同様でした。しかし、バッチ サイズの構成が有効にならないのはなぜでしょうか?調査の結果、Kafka バッチはバッチ サイズの設定と liner.ms の最大許容遅延時間に関係していることがわかりました。liner.ms のデフォルト設定は 0 ですが、この設定を最適化した後もバッチ効果は明らかではありませんでした。最終的に、プロデューサー パーティショナー戦略にも関係していることがわかりました。 パーティショナーの最適化戦略では、次の点を考慮します。
これら 3 つの間にはトレードオフが必要です。大きすぎるとレイテンシに影響し、小さすぎると IO 全体が失敗します。 Kafka はバージョン 2.4 で新しいパーティション戦略、スティッキー パーティショナーを導入しました。新しい onNewBatch メソッドがパブリック パーティショナー インターフェイスに追加されました。このメソッドは、新しいバッチが作成されるたびに呼び出されます。このメソッドが呼び出されると、スティッキー パーティショナーはパーティションをランダムに選択し、すべてのメッセージをキャッシュに格納します。次の OnNewBatch では、キャッシュ内のすべてのメッセージがバッチにパッケージ化され、ランダムに選択されたパーティションに送信されます。次回は別のパーティションがランダムに選択され、メッセージは引き続きキャッシュに蓄積され、パッケージ化されて送信されます。この戦略により、パーティションのバランスとバッチ効果の最大化の両方が保証されます。実際のテストの結果、Sticky Partitioner のバッチ戦略によってもたらされるパフォーマンスの最適化は非常に明白であり、Kafka クラスター全体の水位は 80% から 30% に減少しました。 3. パーティションフローテーブルの最適化(1)データウェアハウスの処理フローオフラインのシナリオでは、列のストレージ、バケット化、パーティション化、インデックス作成などの手段を通じて不要なデータの読み取りを減らし、プログラムのパフォーマンスを向上させることができます。リアルタイム クラスターの全体的な使用コストを削減し、新しい埋め込みポイントの 3 倍のトラフィックの影響に耐えるために、Hive パーティション設計を参考にして、一連のリアルタイム パーティション フロー テーブル設計を実装しました。 上図は、比較的一般的なリアルタイムデータウェアハウスの処理フローチャートです。通常のログ処理プロセスには、DSアーカイブ(NetEase内部サービス、KafkaとHDFSへのログ収集)、Flinkを介してODSレイヤーへのクリーニングとフォーマット、そしてDWDレイヤーへのフォーマットが含まれます。ビジネスアプリケーションはDWDを消費し、ADSレイヤーを生成して上位レイヤーアプリケーションにサービスを提供します。プロセス全体を通じて、ODS ログの量は非常に大きくなります。DWD を開発する場合、ODS レイヤー ログの全量を消費する必要があります。ODS レイヤー ログ フローのサイズが 700M/S の場合、下流のすべての DWD タスクはこの 700M/S フローを消費します。このような大規模なフローを処理するには、約 900 個のコア リソースが必要です。これは、新しく構成された 9 台の物理サーバーに相当します。追加の DWD テーブル タスクごとに、9 台の物理サーバーを追加する必要があります。さらに、このような大量のトラフィックでは、タスクの安定性は保証されません。ログの変動は下流のタスクに比較的大きな影響を与え、Kafka への負荷が非常に高くなり、コストが許容できないものになります。 (2)歴史的経緯以前のソリューションでは、元のログをソースで分割し、別の配布プログラムを使用して、ビジネス ニーズに応じて元のログをさまざまなトピックに分割していました。業界の一部の企業もこれを行っていますが、このアプローチには次の問題があります。 ① 運用・保守コストが高く、分割粒度が比較的粗いため、下流でのトラフィックの無駄な消費が一定量存在し、後から分割することも困難です。 ② リアルタイムフローテーブルを使用する場合、ユーザーは多くの事前知識を必要とし、正しいフローテーブルを読み取るためにメッセージ配信ルールを理解する必要があり、使用コストがかかります。 ③リアルタイムデータウェアハウスとオフラインデータウェアハウスのモデリングを統一できないため、将来的にバッチとストリームを統合したい場合、リアルタイムデータウェアハウスとオフラインデータウェアハウスはスキーマの一貫性を実現できず、リアルタイムとオフラインの両方をサポートするコードセットを実現することは不可能です。 ④ 移行・再利用ができない。ソース側でカスタマイズされた配信プログラムが作成されます。下流で消費される配信データには大きなトラフィックの問題が発生する可能性があります。下流のユーザーはこのソリューションを簡単に再利用できず、継続的に価値を生み出すことができません。 (3)パーティションフローテーブルの最適化Hive テーブルのパーティション設計を参考に、リアルタイム ストリーム テーブルのメタデータ結果を再設計し、リアルタイム ストリーム テーブルにもパーティションの概念を持たせました。パーティション メタデータには、パーティションと Kafka トピックのマッピング関係が含まれています。次に、Kafka コネクタをカスタマイズして変更しました。ストリーム テーブルのパーティション メタデータに従って、ストリーム テーブルに書き込むときに、メッセージ内のパーティション フィールドの内容とパーティション メタデータに基づいて、メッセージが異なるトピックに書き込まれます。ストリームテーブルを読み込む際に、Kafka Connector をベースにパーティションプッシュダウンを実装しました。ユーザーのクエリ SQL 内のパーティション条件に基づいて必要なパーティショントピックを自動的に推測し、不要なパーティショントピックをトリミングすることで、不要なメッセージの読み取りを減らし、リソースの無駄を減らします。 パーティション化されたフローテーブルを使用すると、DS からのログをアーカイブできます。すべての下流 DWD タスクは、パーティション化されたフローテーブルによってもたらされるトラフィック最適化のメリットを意識することなく享受できます。ユーザーは、あまり注意を払う必要はありません。パーティション ルールを設定し、SQL を使用して読み書きできます。配布用に別のプログラムを構築する必要はありません。再利用のコストは非常に低いです。下流の高トラフィック DWD レイヤー テーブルの構築では、パーティション化されたフローテーブル テクノロジを非常に低コストで再利用して、全体のトラフィックを削減することもできます。 この例では、書き込みパーティション フィールドを定義するだけで、パーティション フィールドに従って対応するトピックに自動的に書き込まれます。このパーティション フィールドのクエリ条件を読み取ると、トピック ソースが自動的に推測されます。 IV. 将来計画今後の計画は、主にビッグデータのコンテナ化変換と自動化されたガバナンス プラットフォームの 2 つの領域に重点を置いています。 1. コンテナ化コンテナ化の変革を通じて、次の機能を獲得したいと考えています。
Yarn 環境では、yarn.containers.vcores を通じていくつかの細かいリソース調整のみを行うことができますが、全体的な粒度は比較的粗いです。K8S では、1/1000Core の粒度を実現でき、リソース構成はより細かく柔軟になります。
Yarn環境では、リソースの分離が不十分で、コンテナレベルでのリソース使用率の詳細な指標が不足しているため、マシン負荷、CPU使用率、メモリ使用率、帯域幅使用率などのマクロ指標からタスクリソース使用の合理性を評価することが困難でした。K8S環境では、リソースの分離がより優れており、リソース指標が完備しています。タスクレベルのマクロ監視システムを構築し、一般的なWebアプリケーションを参考に、CPU使用率、IO使用率、メモリ使用率などのマクロ監視を通じてFlinkアプリケーションのリソース適用の合理性を迅速に評価し、迅速に管理および最適化します。
K8S 自体は非常に柔軟なスケジューリング戦略をカスタマイズできるため、タスクの特性に応じてさまざまなタイプのマシンを選択できます。また、他のタイプのビジネス (機械学習、オンライン ビジネス、オフライン コンピューティングなど) のリソースと組み合わせて、全体的なリソース使用率を最大化することもできます。 2. 自動化されたガバナンスプラットフォーム前述したように、データ ウェアハウス、タスク、ユーザー プラットフォーム要素のメタデータを収集してメタデータ ウェアハウスを構築し、このメタデータを使用してメタデータ ウェアハウスに基づくルールを構成することを目指しています。開発と発売の前に、SQLが標準化されているかどうか、アラームが完了したかどうか、およびリソースを自動的に発見するためのルールを通じて実行され、ユーザーガバナンスを補うことができます。 op。 5. 質疑応答Q1:パーティション化されたストリームテーブルに基づいたストリームバッチ統合タスクはありますか?A:現在のソリューションはすべて、データモデルレイヤーを構築します。上記のパーティション化されたストリームテーブルテクノロジーは、リアルタイムデータウェアハウステーブルの過剰なデータフローの問題を解決し、オフラインデータウェアハウスとリアルタイムデータウェアハウスのモデリングを統合するため、データモデルレイヤーで統一されたマッピングを簡単に実現できます。 この記事では、FASTXモデルに基づいた低コード開発ツールであるFASTXと呼ばれる開発ツールについて説明します。ローコードアプローチを介して統一されたコンピューティングロジックを生成し、一連の論理構成を実装し、ストリーミング環境とバッチ環境の両方で実行します。 Q2:SQLの違いをマスクする方法A:FASTXは、リアルタイムデータウェアハウスのデータソースを選択し、DSLからリアルタイムのFlinkSQLを生成します。上層層の相互作用は限られており、オペレーター全体が制御可能であるため、ビジネスシナリオを徐々にカバーし、ロジックのセットを実装し、オフライン環境とリアルタイム環境の両方で実行します。現在、FASTXは、ビジネスシナリオに基づいて開発プラットフォームとして位置付けられています。 Q3:リアルタイムデータウェアハウスガバナンスとオフラインデータウェアハウスガバナンスの方法論の類似点と相違点は何ですか?A:方法論は似ていますが、リアルタイムデータウェアハウスの開発時間は、オフラインデータウェアハウスと比較して比較的短いです。オフラインデータウェアハウス管理には、データウェアハウスの品質を評価するために、浸透率、再利用率、アイドルフィルターなど、データウェアハウスの品質を評価する多くのデータインジケーターがあります。リアルタイムのシナリオでは、データウェアハウスの構造は、一般的にリアルタイムのシナリオで構築されていません。リアルタイムシナリオのフリンクタスクは、リソース、安定性、レイテンシなどに敏感です。必要に応じて、データウェアハウスの構築の仕様は、リアルタイムデータウェアハウスのガバナンスで安定性とリソース管理に注意を払う必要があります。 |
>>: ChatGPTが公式検出ツールを削除、AIテキストは識別できないことを認める
[[217643]]現在、アルゴリズムの配布は、情報プラットフォーム、検索エンジン、ブラウザ、ソーシ...
信じられますか?人工知能は最近、あなたの声からわずか6秒で性別、年齢、人種を判別し、さらにはあなたの...
Rsync は、Unix/Linux でファイルを同期するための効率的なアルゴリズムです。2 台のコ...
近年、大手テクノロジー企業は人工知能と機械学習の研究に力を入れています。その中でも、Googleはこ...
ディープラーニングの分野では、「転移学習」という用語がますます注目を集めています。パフォーマンスが優...
自動運転車の発売が近づいており、消費者の期待は高まっており、人工知能技術は自動車業界にさらに大きな影...
[[207020]]本日 Nature に発表されたこの重要な論文には、Google の Deep...
現在のテクノロジーのホットスポットとして、近年、多くの国内主流テクノロジー企業が人工知能、ナレッジグ...
顧客対応チャットボットの強化から契約コミットメントの追跡、会議の議事録の最大限の活用まで、自然言語処...
ノア著制作:51CTO テクノロジースタック(WeChat ID:blog)最近、マイクロソフトは、...