banner
ホームページ / ニュース / AIトレーニングデータのほとんどは来年までに合成される可能性がある
ニュース

AIトレーニングデータのほとんどは来年までに合成される可能性がある

Jun 09, 2023Jun 09, 2023

合成データを使用すると、純粋な有機データで可能となるよりも大規模なデータセットで AI モデルをトレーニングできます。

ライアン・モリソン

Gartner の新しいレポートは、機械学習モデルのトレーニングに使用されるデータのほとんどが合成され、自動的に生成されると予測しています。 2021 年にはすべての AI トレーニング データのうち合成されたデータは 1% のみでしたが、アナリストは、2024 年末までにその割合が 60% に達する可能性があると示唆しています。このデータがオーガニック データと同じ課題に直面しないようにするには、ガバナンスとバイアスに対する警戒が不可欠であると、ある専門家が Tech に語ったモニター。

合成データは、医療画像や特定の疾患パターンに関する情報など、現実世界の情報に欠けているギャップを埋めるために AI によって生成されます。 Gartner は、今週発表されたデータ サイエンスの傾向に関する新しい調査で、2024 年までにすべての AI モデル トレーニング データの 60% 以上が合成データになると予測しており、これがより優れた AI システムにつながると述べています。

有機トレーニング データから合成トレーニング データへの移行は、大規模な言語モデルや基礎モデルの生成に使用される AI など、データ中心の AI への広範な移行の一環です。 「AI 固有のデータ管理、合成データ、データラベル付けテクノロジーなどのソリューションは、アクセシビリティ、量、プライバシー、セキュリティ、複雑さ、範囲などの多くのデータの課題を解決することを目的としています」と Gartner のレポートは述べています。

GlobalData による最近のレポートでは、合成データ関連の新興企業が「データ生成の状況を再定義」していることがわかりました。 グローバルデータの破壊的技術プラクティス責任者であるキラン・ラージ氏は、これを「AIの未来へのマスターキー」と表現し、新興企業がデータ品質と規制の束縛を打ち破ろうとしていると述べた。 「信頼性が高く、費用対効果が高く、時間効率が高く、プライバシー保護に優れたデータに対する需要が加速し続ける中、新興企業は合成データを活用した未来を構想し、機械学習の進歩の新時代を先導しています」とラージ氏は述べた。

さまざまな分野にプラスの影響を与える可能性があります。 医療分野では、医師の研修、創薬の改善、システムの最適化のために実際の患者データを増強するためにすでに使用されています。 金融サービス分野では、リスクの軽減と不正行為の検出に役立ちます。 また、小売業界では、需要予測、パーソナライズされたマーケティング、不正行為の検出が改善されています。

Gartner が指摘したその他の主要なトレンドには、AI のエッジ処理への移行が含まれます。 レポートによると、作成時点でデータを処理することで、組織はリアルタイムの洞察を得て、新しいパターンを検出できるようになります。 また、これまで以上に厳しいデータプライバシー要件への対応も容易になります。 同組織は、2025 年までにニューラル ネットワークによるデータ分析の 55% 以上がエッジ システムで行われると予測しています。

Gartner のアナリストは、責任ある AI がより重視されるようになるだろうと予測しています。 これには、テクノロジーが社会に対する脅威ではなく、前向きな力として使用されるようにすることが含まれます。 これには、企業が社会的価値、リスク、信頼、説明責任、透明性に対処する AI を導入する際に倫理的な選択を行えるようにすることが含まれます。 これらは、英国を含む世界中で策定されている AI 規制の多くを構成する中心的な要件です。

組織はAIへの投資と展開に対して「リスクに比例したアプローチ」を採用する必要があるとアナリストらは警告した。 これには、ソリューションやモデルを適用する際に注意すること、ベンダーが自社のリスクとコンプライアンス義務を確実に管理していることを保証することを求めることが含まれます。 これは、経済的損失や法的措置から保護するのに役立ちます。

一部の基盤モデルおよび生成 AI 組織は、これらのリスクに対するある程度の補償を提供しています。 Adobe は、Firefly 生成 AI 画像モデルの使用による著作権侵害の申し立てに関連するコストをカバーすると述べています。 これは、モデルが著作権の疑いのある出力を生成しない、ライセンスおよび許可されたデータのみに基づいてトレーニングされていると同社が確信しているためです。

Gartner のディレクター アナリスト、ピーター クレンスキー氏は次のように述べています。「機械学習の導入が業界全体で急速に拡大し続ける中、データは予測モデルのみに焦点を当てていたものから、より民主化されたダイナミックなデータ中心の分野へと進化しています。 これは現在、生成 AI をめぐる熱狂によっても加速されています。 潜在的なリスクが浮上している一方で、データ サイエンティストとその組織にとっての多くの新しい機能やユースケースも同様です。」