AI開発を加速する学習データ選択支援ツール「Active Learning tool」- データの質で勝負する時代へ

注記: 本技術は現在、特許出願中です。

概要：なぜ「Active Learning」が必要なのか

AIモデルの精度を上げるために、闇雲に大量のデータを学習させていませんか？

実は、AI開発における大きなボトルネックは、データの量そのものではなく、「どのデータが学習に効果的か」を見極めることにあります。アノテーションや再学習には時間もコストもかかるため、効果の薄いデータに工数を使ってしまうと、開発全体の効率が下がってしまいます。

ネクスティエレクトロニクス（以降は当社と記載）が開発した本ツールは、Active Learning、すなわち能動学習の考え方をベースにしています。これは、AI自身に「自分がよく分かっていないデータ」を選別させ、人が優先的にアノテーションを行う手法です。

本ツールでは、「特徴量の次元削減」と「不確実性指標の算出」を組み合わせることで、数万件のデータから、モデルの精度向上に寄与しやすいデータを効率よく特定します。

MNISTデータに対するt-SNEによる次元削減マッピングの例

この画像は、手書き数字データセットであるMNISTの膨大な特徴量を、t-SNEというアルゴリズムを用いて2次元に圧縮し、可視化したものです。

マッピングの基本的な見方

ドットの意味:
グラフ上の1つ1つの点は、1枚の画像データに対応しています。
色の意味:
数字の種類ごとに色分けされています。同じ数字のデータが近くに集まることで、クラスタと呼ばれる塊が形成されます。
距離の意味:
2次元平面上で近くに位置している点ほど、AIが「形や特徴が似ている」と判断したデータであることを示します。

この図から読み取れるAIの「思考」

クラスタの分離
0や1のように、他の色から離れて独立した塊を作っている数字は、AIにとって特徴がはっきりしており、識別しやすいデータです。
クラスタの重なり
3と8、あるいは4と9の境界部分では、色が入り混じっている領域が見られます。こうした場所は、AIが「形が似ていて見分けにくい」と感じている領域です。ここが誤認識を招きやすい弱点になります。
孤立した点
大きな塊から離れて存在する点は、書き癖が強い数字や、ノイズを含んだ特殊なデータである可能性があります。

Active Learning toolでの活用：効率的なデータ選定

当社の「Active Learning tool」では、この可視化を単なる分析で終わらせず、戦略的な学習データ選定に活用します。

不確実性の特定

物体検出では、モデルが迷っているデータほど、推論を繰り返した際に結果が安定しにくくなる傾向があります。

マップ上でクラスタが入り混じる境界領域のデータは、不確実性が高くなる傾向があります。
このようなデータを優先的に抽出して追加学習させることで、最小限のデータ量で効率よく精度を向上させます。

クラスタギャップの補完

学習済みデータの分布と未学習データの分布を重ねて表示すると、既存クラスタの間に「空白地帯」が見えてきます。

この空白を埋めるデータを集中的に学習させることで、モデルの死角を減らし、コーナーケースに強い頑健なAIへと近づけることができます。

t-SNEによる可視化は、ブラックボックスになりやすいAIの特徴量の捉え方を地図のように示すものです。この地図上で、不確実性が高い領域を狙って学習させることが、高精度なモデル開発への近道になります。

WEB UIのイメージ

以下は、Active Learning toolの開発中画面の一例です。可視化マップ上でデータの分布や不確実性を確認しながら、次に学習へ追加すべき候補を絞り込めます。

技術の核心：不確実性を可視化するメカニズム

本ツールは、独自のフローでデータを解析します。

解析データの算出（不確実性の定量化）

学習済みモデルに複数の入力データを与えて推論を行い、各データに対して特徴量データと不確実性指標データを算出します。

本ツールの物体検出プロセスでは、モデルの迷いを把握するために、推論結果のばらつきに着目した不確実性指標を用いています。

ここでいう不確実性とは、モデルがその入力に対してどれだけ安定して判断できているかを表す考え方です。たとえば、推論時にDropoutを有効にした状態で複数回推論を行うと、学習済みモデルが十分に理解できている対象では出力が比較的安定しやすくなります。一方で、学習が不足しているパターンやコーナーケースでは、推論ごとの出力傾向にばらつきが見られる場合があります。

本ツールでは、このような変動を不確実性の把握に活用しています。出力が大きく揺らぐデータは、モデルが十分な確信を持てていない可能性があり、追加学習の候補として有効です。

次元削減によるデータ分布の表示

高次元の特徴量データを、人が理解しやすい2次元や3次元へ圧縮することで、数万件のデータをマップ上の点として俯瞰できるようにします。次元削減の手法としては、t-SNEやUMAPなどを利用できます。

以下の画面も、Active Learning toolの開発中画面の例です。2次元平面上にプロットされた各ドットをクリックすることで、実際の画像と詳細データを確認できます。不確実性指標であるUncや、周辺密度を表すDenも合わせて参照可能です。

戦略的なフィルタリング表示

特定ラベルの強調表示や、不確実性指標が高い順での抽出に対応しており、「AIが苦手な画像だけを集めて重点的に強化する」といった使い方が可能です。

以下も、Active Learning toolの開発中画面の例です。画像カテゴリごとにフィルタをかけ、対象データを強調表示できます

↑carのラベルにフィルタした様子。比較的右上にデータが集まっている分布に見える。

↑personにフィルタした様子。比較的左下にデータが集まっている分布に見える。

↑car_person（車と人が混在している画像）のラベルにフィルタした様子。全体的に均一にデータが集まっている分布に見える。

既学習データとの統合表示

既学習データと未学習データを同時に表示することで、学習済み領域の間に存在する未学習の空白地帯を発見できます。この領域を優先的に補強することで、モデルの死角を減らし、認識精度を効率よく向上させることができます。

以下は、COCOデータを用いてt-SNEによるマッピングを行い、条件ごとに赤色で強調表示した例です。こちらもActive Learning toolの開発中画面です。

All：全て
Car_Person：車と人が混在
Person：人のみ
Car：車のみ

Allでは、全体の分布傾向を俯瞰できます。
Car_Personでは、分布全体に点が存在しており、車と人が同時に含まれるデータが広い特徴領域にまたがっていることが分かります。さらに、左上には大きなデータ群から少し距離を置いたサブクラスタのような分布も見られます。
Personは右上に多く分布する傾向が見られます。
Carは左下に多く分布する傾向が見られます。

このように分布を確認した上で、たとえばサブクラスタ周辺の画像を重点的に確認し、その領域のデータを新たに追加したり、Augmentationを実施して汎用性を高めたりすることが可能です。

その他機能

不確実性指標によるフィルタ機能
不確実性指標順での次期学習データ候補抽出機能
mAP@0.5 / @0.9順での次期学習データ候補抽出機能
各データの詳細プレビュー確認、手動抽出機能

以下も、Active Learning toolの開発中画面の例です。

導入効果：質の向上

当社では、本ツールの使用前後で精度比較を行い、推論精度の改善傾向を確認しました。

初回学習として6,000枚を用いた後、追加学習データの選び方を変えて比較したところ、不確実性の高いデータを優先して選定した場合に、他の選択方法と比べて良好な結果が得られました。

学習条件	mAP@0.5	初回との差	特徴
初回学習（6000枚）	0.7386	0	比較の基準となる初回学習
追加学習（6000枚＋不確実性下位1000枚）	0.7351	-0.0035	今回の条件では初回学習を下回った
追加学習（6000枚＋ランダム1000枚）	0.7452	0.0066	一定の改善が見られた
追加学習（6000枚＋不確実性上位1000枚）	0.7499	0.0113	比較した中では最も高い値となった

今回の結果では、不確実性の高いデータを優先した選定が、効率的な精度改善につながる可能性が示されました。一方で、差分は評価条件やデータセットの構成によって変動し得るため、常に同じ傾向がそのまま再現されるとは限りません。

そのため本ツールは、単に精度差の大小だけを見るのではなく、モデルが迷いやすい領域や学習上の抜けを可視化し、次にどのデータを優先して確認・追加学習するかを判断するための支援ツールとして有効です。

まとめ：データ中心のAI開発へ

これからのAI開発は、「とにかく集める」から「賢く選ぶ」時代へ移行していきます。当社のActive Learning toolは、その変化を支援するツールです。

開発期間の短縮
無駄なアノテーションと学習時間を削減し、効率的なデータ選択を支援します。
コスト削減
学習データ量を最適化することで、GPUリソースや計算機利用時間を抑制できます。
品質の根拠づけ
どの領域を強化したかを可視化データに基づいて客観的に示せるため、品質担保がしやすくなります。

本ツールは、AIエンジニアが直感だけに頼らず、データの裏付けを持って意思決定できるようにするパートナーです。
ご興味のある方は、問い合わせフォームよりお問い合わせください。

関連技術: 能動学習、次元削減、t-SNE、UMAP、認識論的不確実性、Epistemic Uncertainty

お問い合わせ

お問い合わせをする

概要：なぜ「Active Learning」が必要なのか