用語集 - AI Daily Digest

日本語

あ行

AIガードレール

LLMの出力を制限する安全策の総称。有害コンテンツ生成の防止、軍事利用の制限、個人情報漏洩の阻止などを目的としたフィルターやポリシーを含む。モデル内部の学習による制約と、外部フィルターによる後付け制約の両方がある。代表記事：ペンタゴンがAnthropicにAI安全策の撤回を要求
安全性フィルター

AIモデルの出力から有害・危険なコンテンツを除外する仕組み。過剰に作動すると正常な操作まで拒否する「過検知」問題が発生する。モデル内部の学習制約と外部フィルターの両方が存在し、そのバランス調整がAI安全性の重要課題。代表記事：Gemini CLIの「反重力BAN」問題：AI検閲の境界線
アテンション機構

Transformerの中核技術。入力の各部分が他の部分とどれだけ関連するかを計算し、重要な情報に「注目」する仕組み。Self-Attention、Cross-Attentionなどの種類がある。代表記事：Loop Attention：Qwen3向け新アテンション機構
エージェント型コーディング（Agentic Coding）

AIエージェントが自律的にコードを書き、ビルド・テスト・修正を繰り返す開発手法。人間は自然言語で指示を出し、エージェントが実行・検証・反復を担当する。Xcode 26.3、Claude Code、GitHub Copilot Agentなどが対応。バイブコーディングとの違いは、エージェントが自律的にエラー修正まで行う点。代表記事：Xcode 26.3がエージェント型コーディングを解禁

か行

カリキュラム学習（Curriculum Learning）

学習データを「簡単なものから難しいもの」の順に提示することでモデルの学習効率を高める手法。人間の教育過程に着想を得ており、データの品質と提示順序を最適化することで、同じ計算リソースでより高性能なモデルを訓練できる。MITの研究ではこのアプローチで最大2倍の効率向上が報告されている。代表記事：MIT、LLM学習効率を2倍にする新手法を発表
クリーンルーム実装

既存のソースコードを一切参照せず、公開された仕様書やドキュメントのみから互換ソフトウェアを開発する手法。著作権侵害の回避が主な目的で、仕様を読む人と実装する人を分離する「中国の壁」方式が伝統的。AI時代には、LLMに仕様書だけを渡してコードを生成させる新たなクリーンルーム手法が登場している。代表記事：antirezがClaude Codeで「仕様書だけ」からZ80エミュレータを構築
コンテキストエンジニアリング

LLMに与えるコンテキスト（文脈情報）を設計・最適化する技法の総称。プロンプトエンジニアリングが「指示の書き方」に焦点を当てるのに対し、コンテキストエンジニアリングは「どの情報を、どの順序で、どれだけ渡すか」というシステム全体の設計を扱う。エージェント開発ではツール定義や過去の実行結果の取捨選択が含まれる。代表記事：ミニマル・コーディングエージェント「Pi」の設計思想
行動クローニング（Behavioral Cloning）

人間の操作を録画し、その入出力パターンをモデルに模倣させる学習手法。ロボティクスやGUI自動化で広く使われ、逆動力学モデルと組み合わせてラベルなし動画からも学習できる。si.incのFDM-1は1,100万時間のコンピュータ操作動画からこの手法で学習した。代表記事：初の汎用コンピュータ操作モデル：AIエージェントがGUIを自律操作する時代

さ行

ジェイルブレイク（Jailbreak）

AIモデルの安全ガードレールをプロンプト操作で回避し、通常は拒否される出力を引き出す手法の総称。ロールプレイ指示や多段階のプロンプトでモデルの制約を迂回する。プロンプトインジェクションが「意図しない命令の注入」であるのに対し、ジェイルブレイクは「既存の制約の解除」に焦点を当てる。代表記事：AIは小説をほぼ丸ごと再現できる：Claude・GPT・Geminiで検証した結果
セマンティック検索

テキストの「意味」に基づいて検索する手法。文章をベクトル（埋め込み）に変換し、類似度を計算して関連する結果を返す。キーワード検索（レキシカル検索）と組み合わせてハイブリッド検索として使われることが多い。代表記事：Claude Codeで600GBインデックスを検索するツール「Scry」
スケーリング則（Scaling Laws）

モデルのパラメータ数・訓練データ量・計算量を増やすと、性能が予測可能なべき乗則に従って向上するという経験則。OpenAI、DeepMindらの研究で確認され、大規模モデルへの投資判断の根拠となっている。ただし、小型モデルの台頭により限界も指摘されている。代表記事：OpenAI、1,100億ドル調達で時価総額7,300億ドル：「循環投資」モデルの持続可能性
スコープクリープ

プロジェクトの要件が当初の計画を超えて際限なく拡大する現象。AI生成コードの高速さが「もっとできるはず」という期待を生み、要求膨張を加速させるリスクが指摘されている。代表記事：AIはコーディングを簡単にしたが、エンジニアリングは難しくなった
推論（Inference）

学習済みモデルに入力を与えて出力を得るプロセス。トレーニング（学習）とは異なり、モデルの重みは更新されない。GPUメモリ（VRAM）や処理速度が重要な指標となる。代表記事：GLM-4を50%圧縮して92GBで動かす方法

た行

知識カットオフ

モデルの学習データに含まれる情報の最終日時。これ以降の出来事はモデルが「知らない」状態になる。最新情報を扱う際の重要な制約。代表記事：ローカルLLMがニュースを「デマ」と判定する問題
ディープフェイク（Deepfake）

AIを使って人物の顔や声を別人に置き換える技術の総称。GAN（敵対的生成ネットワーク）や拡散モデルで生成される。詐欺、偽情報、なりすましへの悪用が深刻化しており、リアルタイム映像への適用も可能になっている。代表記事：ミャンマー詐欺拠点4200ページのチャットログが暴く「AI詐欺」の実態
データポータビリティ

あるサービスに蓄積したデータを別のサービスへ移行できる権利・仕組み。GDPRやデジタル市場法（DMA）で義務化が進む。AIアシスタント間のメモリ移行もこの概念の実践例として注目されている。代表記事：Claude乗り換え支援：メモリごと移行できるImport Memory

な行

認知負荷（Cognitive Load）

ある作業を遂行するために必要な精神的処理量。AI生成コードのレビューでは、自分で書いていないコードの意図・前提・エッジケースを理解する必要があり、従来の開発より認知負荷が増大する傾向がある。代表記事：AIはコーディングを簡単にしたが、エンジニアリングは難しくなった

は行

ハルシネーション

LLMが事実と異なる情報をもっともらしく生成する現象。「幻覚」とも呼ばれる。存在しない論文の引用、架空の事実の生成などが典型例。RAGや検証プロセスで軽減を図る。代表記事：ローカルLLMがニュースを「デマ」と判定する問題
プロンプト

LLMに与える入力テキスト。質問、指示、コンテキストなどを含む。プロンプトの書き方（プロンプトエンジニアリング）によって出力品質が大きく変わる。システムプロンプト、ユーザープロンプトなどの種類がある。
プロンプトインジェクション

AIへの入力を操作して、開発者が意図しない動作を引き起こす攻撃手法。システムプロンプトの上書き、機密情報の抽出、有害コンテンツの生成などが典型例。AIエージェントの普及に伴い、ツール呼び出しの乗っ取りなど攻撃面が拡大している。代表記事：AIエージェントの「スキル」に潜むセキュリティリスク
バイブコーディング（Vibe Coding）

AIエージェントに自然言語で仕様を伝え、コードの大部分を生成させる開発スタイル。開発者はコードの詳細よりもAIへの指示（プロンプト）に注力する。手軽さが魅力だが、生成コードの理解が浅くなるリスクも指摘されている。代表記事：「最先端の一歩手前」が正解？AI開発ツール採用の判断軸
フェアユース（Fair Use）

著作権者の許可なく著作物を利用できる米国法上の例外規定。批評・教育・パロディなどが対象。AI学習データとしての利用がフェアユースに該当するかが世界的な争点になっている。代表記事：AI学習は著作権侵害か？「法律のほうが壊れていた」という視点
ベンチマーク

モデルの性能を測定するための標準化されたテスト。MMLU（知識）、HumanEval（コーディング）、MATH（数学）などがある。モデル比較の指標として使われるが、実用性能との乖離も指摘される。

ま行

モデル蒸留（Distillation）

大規模モデル（教師モデル）の出力を教師データとして、小規模モデル（生徒モデル）を訓練し性能を転写する手法。正規の蒸留はモデル開発者自身が行うが、他社のAPIを大量に叩いて出力を収集し無断で蒸留する不正利用が問題になっている。2026年にはAnthropicがDeepSeek・MiniMax・Moonshotによる計1,600万回の不正アクセスを公式に報告した。代表記事：Anthropicが蒸留の証拠を公開：DeepSeek・MiniMax・Moonshotの1,600万回
マルチモーダル

テキストだけでなく、画像・音声・動画など複数の形式（モダリティ）を扱えるモデルの特性。GPT-4V、Claude 3、Geminiなどが画像理解に対応。入出力両方でマルチモーダル化が進んでいる。

ら行

量子化（Quantization）

モデルの重みを低精度（例：FP16→INT4）に変換してサイズを削減する技術。メモリ使用量と推論速度を改善できるが、精度とのトレードオフがある。GGUF、AWQ、GPTQなどの形式がある。代表記事：GLM-4を50%圧縮して92GBで動かす方法

アルファベット

A

Agent（エージェント）

LLMが自律的にツールを使い、複数ステップのタスクを実行するシステム。ファイル操作、Web検索、コード実行などを組み合わせて目標を達成する。Claude Code、Manus、Devinなどが代表例。代表記事：Manusエージェントのワークフロー徹底解析
AGENTS.md

AIエージェントへのプロジェクト固有の指示をMarkdownファイルで管理する規約。リポジトリのルートや各ディレクトリに配置し、コーディング規約・テスト方針・アーキテクチャ情報などをエージェントに伝える。CLAUDE.mdやCOPILOT.mdなど類似の仕組みもあるが、AGENTS.mdはツール非依存を目指す。代表記事：AGENTS.mdがスキルに圧勝：エージェント文脈管理の最適解
Agent Skills

Anthropicが主導するAIエージェントの「スキル（能力・手順）」を標準化するオープン規格。SKILL.mdメタデータファイルを含むディレクトリで構成され、一度定義すれば複数のプラットフォームで利用可能。MCP（ツール接続）と補完関係にあり、スキルのポータビリティを実現する。代表記事：Agent Skills：AIエージェントのスキル標準化規格の全容
ASR（Automatic Speech Recognition）

音声をテキストに変換する技術の総称。従来はGoogleやAWSのクラウドAPIが主流だったが、Whisper以降はローカル実行可能なモデルが急増している。NVIDIAのParakeetシリーズやOpenAIのWhisperが代表例。リアルタイム処理、話者分離、多言語対応が進化の焦点。代表記事：parakeet.cpp：NVIDIAの音声認識をApple Siliconで96倍速で動かす
A2A（Agent-to-Agent Protocol）

Googleが提唱するAIエージェント間の通信プロトコル。メールやHTTPに依存せず、エージェント同士が直接タスクを委任・連携する仕組みを標準化する。MCPがツール接続に特化しているのに対し、A2Aはエージェント同士の対話に焦点を当てている。代表記事：AIエージェント専用メールAPI「AgentMail」の可能性と落とし穴

C

CAG（Computation Augmented Generation）

RAGの計算版。既存文書を検索して取得するRAGに対し、CAGは必要な計算結果をリアルタイムで生成してLLMに注入する手法。数式処理・物理シミュレーション・知識グラフ照会など、決定論的な正確さが求められる領域で有効。Wolframが提唱。代表記事：WolframがLLMの計算基盤を公開：RAGの先を行く「CAG」とは
Context Window（コンテキストウィンドウ）

モデルが一度に処理できる入力の最大長（トークン数）。Claude 3は200K、GPT-4 Turboは128Kなど。長いコンテキストは大きなコードベースや文書の処理に有利だが、コストも増加する。代表記事：Claude Codeの200行制限：その理由と回避策
C2PA（Coalition for Content Provenance and Authenticity）

デジタルコンテンツの出所と改変履歴を暗号技術で証明する業界規格。Adobe、Google、Microsoft等が参加。AI生成画像の識別やフェイク対策に使われるが、メタデータの意図的除去が技術的に容易なため、強制力には限界がある。代表記事：Nano Banana 2：Googleの最新画像生成モデルが示す品質と限界
CSAM（Child Sexual Abuse Material）

児童性的虐待画像・動画の総称。AI画像生成モデルによるCSAM生成が国際問題化しており、EU・米国・日本を含む各国でAI生成物も規制対象に含める法整備が進んでいる。代表記事：GrokのCSAM問題でフランス警察がX社を家宅捜索
CTC（Connectionist Temporal Classification）

可変長の入力と出力を整列させるための損失関数。音声認識で広く使われ、フレームごとの確率分布から最も可能性の高い文字列を推定する。アテンションベースのデコーダと比べ、入力を忠実に判定する特性がある。代表記事：9Mパラメータの音声モデルで中国語の声調を矯正する方法

F

Fine-tuning（ファインチューニング）

事前学習済みモデルを特定のタスクやドメインに適応させる追加学習。全パラメータを更新するフルファインチューニングと、一部だけを更新するLoRAなどの手法がある。
FFN（Feed-Forward Network）

Transformerの各層に含まれる全結合ニューラルネットワーク。アテンション層が「何に注目するか」を決め、FFNが「その情報をどう変換するか」を担当する。MLP（Multi-Layer Perceptron）とも呼ばれ、モデルの知識の大部分はこの層に格納されると考えられている。代表記事：MicroGPT入門：KarpathyがGPTの全構造を1ファイルで解説する新プロジェクト
FP8（8ビット浮動小数点）

bf16やFP32より低精度だが演算速度が理論上2倍の数値形式。NVIDIA H100以降のGPUでハードウェアサポートされ、大規模モデルの学習・推論の高速化に使われる。精度低下を抑える工夫が研究の焦点。代表記事：GPT-2の学習時間を2.91時間まで縮めた最適化の全手法

G

GGUF（GPT-Generated Unified Format）

llama.cppで使われるLLM量子化モデルの標準ファイル形式。モデルの重み・トークナイザ・メタデータを単一ファイルにまとめ、CPU/GPU混合推論に対応する。旧形式GGMLの後継で、OllamaやLM Studioなど主要なローカル推論ツールが採用している。Unsloth Dynamic 2.0のようにレイヤーごとに異なるビット幅を割り当てる高度な量子化手法も登場している。代表記事：Unsloth Dynamic 2.0：レイヤー単位で量子化を最適化し、1-bitでもGPT-4.1超え

H

HBM（High Bandwidth Memory）

DRAMチップを垂直に積層し、広帯域・低消費電力を実現するメモリ技術。AIアクセラレータ（GPU/TPU）が大量のパラメータを高速に読み書きするために不可欠。Samsung、SK Hynix、Micronの3社が製造を寡占しており、2026年はAI需要の急増によりHBM生産が優先された結果、一般PC・スマホ向けDRAMの供給不足と価格高騰を引き起こしている。代表記事：RAMがPC部品コストの35%に：AI需要が引き起こすメモリ危機
Hallucination（ハルシネーション）

LLMが事実と異なる情報を自信を持って生成する現象。学習データにない情報を「補完」しようとして発生する。グラウンディング（事実に基づく回答）やRAGで軽減できる。
別名：幻覚、作話
代表記事：ローカルLLMがニュースを「デマ」と判定する問題

I

Inference（推論）

学習済みモデルを使って予測や生成を行うこと。Training（学習）の対義語。推論速度（トークン/秒）、レイテンシ、スループットが重要な指標。代表記事：GLM-4を50%圧縮して92GBで動かす方法
Interpretability（解釈可能性）

AIモデルの内部動作や判断根拠を人間が理解・説明できる度合い。ブラックボックス化した大規模モデルの安全性担保やデバッグに不可欠な研究領域。SAE（Sparse Autoencoder）やプロービングなどの手法がある。代表記事：ニューラルネットワークをリバースエンジニアリングせよ：Jane Streetの挑戦が映すAI解釈性

L

LAWS（Lethal Autonomous Weapons Systems）

人間の介入なしに標的の選定・交戦判断・攻撃を行う兵器システム。国連で規制議論が続いているが、法的拘束力のある条約はまだない。AI企業の軍事参入に伴い、「どこまでAIに判断を委ねるか」が焦点になっている。Anthropicは2026年にLAWSへの技術提供を明確に拒否し、国防総省と対立した。
別名：自律型致死兵器システム、キラーロボット
代表記事：Anthropicの国防総省対立：AI安全性の「一線」を守れるか
LLM（Large Language Model）

大量のテキストデータで学習された大規模な言語モデル。GPT-4、Claude、Gemini、Llama などが代表例。数十億〜数兆のパラメータを持ち、多様な言語タスクをこなす。
別名：大規模言語モデル
代表記事：Simon WillisonのLLM総括
LoRA（Low-Rank Adaptation）

少ないパラメータでモデルをファインチューニングする手法。元のモデルの重みを固定し、小さな行列を追加学習する。メモリ効率が良く、複数のアダプターを切り替えて使える。QLoRAは量子化と組み合わせた派生手法。

M

MCP（Model Context Protocol）

Anthropicが提唱するLLMとツール・データソースを接続するためのオープンプロトコル。ファイルシステム、データベース、APIなどをLLMから統一的にアクセス可能にする。Claude Codeなどで採用。代表記事：Claude Code開発者の環境
MoE（Mixture of Experts）

複数の「エキスパート」サブネットワークを持ち、入力に応じて一部だけを活性化する構造。パラメータ数が大きくても、推論時は一部しか使わないため効率的。GLM-4、Mixtralなどが採用。
別名：エキスパート混合、スパースモデル
代表記事：GLM-4を50%圧縮して92GBで動かす方法
MLX

AppleがAppleシリコン（M/Aシリーズ）向けに開発したオープンソースの機械学習フレームワーク。Metal GPUバックエンドを使い、iPhone・Mac上でのLLM推論を可能にする。NumPy風のAPIを持ち、PyTorchからの移行がしやすい設計。代表記事：iPhone 16 Pro MaxでMLX推論が壊れる原因

O

OOD（Out-of-Distribution）

訓練データの分布から外れた入力のこと。モデルがOODデータに対して正しく動作するか（汎化性能）は、実運用での信頼性を左右する重要な指標。訓練範囲内では高精度でも、範囲外で劇的に性能が低下するケースが多い。代表記事：10桁の足し算ができる最小Transformer：36パラメータで学ぶモデル設計の本質
Ollama

ローカル環境でLLMを手軽に実行するためのツール。Llama、Mistral、Gemmaなど多数のモデルに対応し、CLIやAPIで操作できる。Dockerイメージも提供されており導入が簡単な反面、デフォルト設定では外部公開されるリスクがある。代表記事：17.5万台のOllamaが公開状態：ローカルAIサーバーのセキュリティ

P

PagedAttention

LLM推論時のKVキャッシュをOSの仮想メモリのようにページ単位で管理する手法。vLLMの中核技術として登場し、メモリの断片化を防ぎながら複数リクエストの同時処理効率を大幅に向上させる。代表記事：Nano-vLLM：vLLM推論エンジンの仕組みを1200行で理解する

R

RAG（Retrieval-Augmented Generation）

外部データベースから関連情報を検索（Retrieval）し、それを参照してLLMが回答を生成（Generation）する手法。知識カットオフの制約を回避し、最新情報や社内文書を扱える。
別名：検索拡張生成
代表記事：ローカルLLMがニュースを「デマ」と判定する問題
RSP（Responsible Scaling Policy）

Anthropicが2023年に策定したAI安全性方針。モデルの能力が一定の危険水準（ASL: AI Safety Level）に達した場合にトレーニングを一時停止するという事前コミットメント。2026年2月に撤回され、競争圧力下での自主規制の限界を象徴する事例となった。代表記事：Anthropicが安全性誓約を撤回：「責任あるスケーリング」の終わりと業界への影響

S

SAE（Sparse Autoencoder）

ニューラルネットワークの内部表現を疎（スパース）な特徴量に分解する手法。LLMの隠れ層の活性化パターンを人間が理解できる「概念」に対応づけることで、モデルの判断根拠を解釈可能にする。Anthropicの研究やSteerling-8Bなど、LLMの解釈可能性研究で注目されている。代表記事：Steerling-8B：生成トークンの出所を説明できるオープンソースLLM
Sycophancy（おべっか問題）

AIがユーザーの意見に過度に同調し、正確性より好意的な回答を優先してしまう傾向。間違いを指摘すべき場面でも「おっしゃる通りです」と迎合してしまう。RLHFなど人間のフィードバックによる学習が原因の一つとされ、アラインメント研究の重要課題になっている。代表記事：AIコーディング支援はスキル形成を阻害する：Anthropic自社研究

T

Transformer

2017年にGoogleが発表した「Attention Is All You Need」論文で提案されたニューラルネットワークアーキテクチャ。Self-Attentionを中核とし、GPT、BERT、Claudeなど現代のLLMの基盤となっている。代表記事：Loop Attention：Qwen3向け新アテンション機構
Temperature（温度パラメータ）

LLMの出力のランダム性を制御するパラメータ。0に近いほど決定的（最も確率の高いトークンを選択）、高いほど多様な出力が得られる。一般に0.0〜2.0の範囲で設定し、コード生成では低め（0〜0.2）、創作では高め（0.7〜1.0）が推奨される。Top-pやTop-kと組み合わせて使うことが多い。代表記事：Scratchで教える生成AI：「なぜハルシネーションが起きるか」を体感する方法
TTS（Text-to-Speech）

テキストを音声に変換する技術。読み上げ、ナレーション、音声アシスタントなどで使われる。ElevenLabs、Coqui TTS、Barkなどのサービス・ライブラリがある。
別名：音声合成、読み上げ
代表記事：ElevenLabs代替：コスパ良いTTSツール比較

V

vLLM

PagedAttentionを採用した高性能LLM推論エンジン。複数リクエストの同時処理、連続バッチング、テンソル並列化に対応し、本番環境でのLLMサービングのデファクトスタンダードとなっている。オープンソースで開発が活発。代表記事：Nano-vLLM：vLLM推論エンジンの仕組みを1200行で理解する
VRAM（Video RAM）

GPUに搭載されたメモリ。LLMの推論・学習ではモデルの重みやアクティベーションを保持するために使用。ローカルLLM実行時の最大の制約となることが多い。量子化でVRAM使用量を削減できる。代表記事：GLM-4を50%圧縮して92GBで動かす方法