AI Daily Digest - 2026年2月20日 | OpenAI入社劇 / Anthropic認証制限 / Gemini 3.1 Pro

1. OpenClaw開発者がOpenAIに入社―バイラル成功からの「正しい出口」 Tier1

何が起きたか

オープンソースAIツール「OpenClaw」の開発者Peter SteinbergerがOpenAIへの入社を発表しました。HNで1,439ポイント・1,122コメントという異例の注目を集めた投稿です。OpenClawは複数のAIモデルを統一インターフェースで操作できるツールで、「バイブコーディング」で急速に人気を集めていました。

要点

Steinbergerは13年間会社を経営した経験があり、今回は「もう一つ会社を作るのではなく、世界を変えたい」という動機でOpenAIを選んだと説明しています。「エージェントを誰もが使えるようにする」仕事に就くとのこと
OpenClawは財団に移管され、オープンソースとして独立運営を継続します。OpenAIはすでにスポンサーとして関与しており、プロジェクトの独立性は維持されるとしています
サンフランシスコで主要なAIラボと面談した結果、「未公開の研究にアクセスして、OpenAIのビジョンが自分と最も近い」と判断したとのこと

なぜ重要か

この件が注目される本質は「オープンソースのバイラル成功が、大企業への入社チケットになる」というパターンです。2月17日に報じたOpenClaw開発者の話から状況が急展開しました。HNコメントでは「セキュリティ脆弱性を抱えたアルファ品質のソフトをバイブコーディングしただけで最高の転職ができるのか」という辛辣な反応も多く、AI業界の採用基準そのものへの疑問が噴出しています。

議論の争点

バイラル成功の実力評価：OpenClawにはセキュリティ上の懸念が指摘されており、「コードを読まずにバイブコーディングで作った」と本人が認めています。これを評価してよいのか、それとも「正しい場所に正しい時にいた」だけなのか。

オープンソースのアクハイヤー（人材獲得目的の買収）：OpenAIがOpenClawをスポンサーしつつ開発者を雇うのは、事実上のアクハイヤーです。オープンソースの「独立性」は本当に維持されるのか。

AIラボの人材戦略の是非：「バイラルなOSSを作る→大手AIラボに入る」というインセンティブ構造は、実力よりマーケティング力を評価する文化を助長するのではないか。

少数意見：「OAIの本音はOpenClawという『エージェントの顔』を取り込むことで、モデル層が入れ替え可能になる脅威を潰すこと」という分析がありました。

判断のヒント：OpenClawを使っている場合、財団移管後のガバナンスとセキュリティ対応を注視すべきです。

所感

個人的に興味深いのは、OpenClawの技術的な完成度よりも「エージェントUIの標準化」というポジションの価値です。AIモデルは入れ替えられるが、UIは固定される。その「UI層」を押さえた開発者を採用する判断は、技術評価というよりプロダクト戦略として理解すべきでしょう。

用語メモ

アクハイヤー（Acqui-hire）: 企業買収の一形態で、製品よりも人材の獲得を主目的とするもの。
この記事では、OpenAIがOpenClawをスポンサーしつつ開発者を雇用する構図として登場。
バイブコーディング: AIにコードの大部分を生成させ、開発者は方向性の指示に集中する開発スタイル。
OpenClawの開発手法として言及されており、品質面での批判も出ている。

出典：steipete.me - I'm joining OpenAI（HN: 1,439 points, 1,122 comments）

2. Anthropicがサブスク認証の第三者利用を公式禁止 Tier1

概要

Anthropicが「Claude Free/Pro/MaxのOAuth認証を、Claude CodeとClaude.ai以外の製品・ツール・サービスで使用することを禁止する」というポリシーを公式ドキュメントに明記しました。これにより、サブスクリプションの認証情報を使って第三者アプリからClaudeにアクセスすることは利用規約違反となります。

先に押さえる3点

具体的には、Claude Pro/MaxのOAuthトークンを使って自作のアプリやAgent SDKからAPIリクエストを送る行為が禁止です。開発者はClaude ConsoleのAPIキー認証を使う必要があります
HNで588ポイント・723コメントと激しい議論になっています。「Claude Codeはロックインであり、フロントエンドとAPIが分離されていれば、ベンチマーク一つで半数のユーザーを失う」という批判が代表的です
Anthropicは「事前通知なしに制限措置を講じる権利を留保する」としており、違反した場合のアカウント停止リスクがあります

影響

この変更は、Claudeをバックエンドに使った独自ツールを開発していた個人開発者や中小チームに直撃します。これまでPro/Maxの月額サブスクでAPIコストを回避していたワークフローは、API従量課金に切り替える必要が出てきます。2月17日にはAnthropicがClaude Codeのアクション非表示で反発を招いた話もあり、開発者との関係にひびが入りつつある印象です。

議論の争点

ロックイン戦略としての批判：Claude CodeでしかOAuth認証を使えないということは、開発体験をAnthropic純正ツールに囲い込む意図がある、という見方です。API単体の競争力に自信がないのでは、という声も。

「サービスの暗黙的な契約変更」への不信感：料金を払っているユーザーが、後から利用条件を制限されることへの反発は根深い。Spotify APIの縮小、Reddit APIの有料化と同じパターンだという批判があります。

API課金への移行は合理的か：Anthropicの立場に理解を示す意見もあります。Pro/Maxの固定料金でAPI並みの使い方をされればコスト構造が破綻する、という経営判断は合理的だと。

少数意見：「OpenAIが同等の$100サブスクを出したら即座に乗り換える」というユーザーもおり、ポータビリティの問題が浮き彫りになっています。

判断のヒント：Claude Pro/Maxの認証を独自ツールで使っている場合、API課金への移行計画を今すぐ立てるべきです。

実務メモ

対応は明確です。Claude Console（platform.claude.com）でAPIキーを発行し、従量課金に移行すること。コスト増が気になる場合は、Claude Sonnet 4.6の$3/MTok（入力）を計算して月額予算を見積もってから判断するのが現実的です。

用語メモ

OAuth認証: ユーザー名・パスワードを第三者に渡さずに、サービス間でアクセス権を委譲する認証プロトコル。
Anthropicは、このOAuthトークンの第三者利用を禁止した。
Agent SDK: Anthropicが提供するエージェント構築用の開発キット。
今回の制限により、Agent SDKの利用にはAPIキー認証が必須となった。

出典：Claude Code Docs - Legal and compliance（HN: 588 points, 723 comments）

3. Gemini 3.1 Pro：ARC-AGI-2で77%、Googleが本気を出した Tier1

ざっくり言うと

Googleが最新のフラッグシップLLM「Gemini 3.1 Pro」をリリースしました。最大の目玉はARC-AGI-2ベンチマークで77.1%を達成したこと。前バージョンのGemini 3 Proが31.1%だったので、約2.5倍のジャンプです。テキスト・画像・音声・動画の入力に対応し、コンテキストウィンドウは100万トークンを維持しています。

ポイントは3つ

主要ベンチマーク：ARC-AGI-2で77.1%、GPQA Diamondで94.3%、SWE-Bench Verifiedで80.6%。コーディングとエージェントタスクで大幅な改善が見られます。価格はGemini 3 Proと同じ入力$2/出力$12（百万トークンあたり）
ただし、HNコメントでは「知識カットオフが2025年1月のまま据え置き」「Gemini 3がまだPreviewで本番用レートリミットが低い」「2.5は非推奨化されたが代替がPreviewのみ」といった運用上の混乱が指摘されています
ARC-AGI-2での急激なスコア上昇について「ベンチマーク特化のRLHFではないか」という疑念も出ています。他のベンチマークでの改善幅と比較すると、この一点だけ突出しているのは事実です

どこに効く？

2月18日のClaude Sonnet 4.6と合わせて、主要3社（Anthropic、Google、OpenAI）のフラッグシップモデルが同一週に更新されるという異例の展開です。価格帯も近いため、タスクごとの最適モデル選定がこれまで以上に重要になります。

議論の争点

ARC-AGI-2のスコアはベンチマーク特化か：31.1%→77.1%という跳躍は、ベンチマーク汚染やRLHFによる過学習の可能性を排除できない、という意見があります。

Googleのモデルリリース戦略の混乱：Gemini 2.5が非推奨、3.0がPreview、3.1もPreviewという状態で、本番環境にどれを使えばいいのか分からない、という声が強い。

実用性はベンチマークに反映されているか：「推論やベンチマークは良いが、実際のコーディングでは一貫性がない」というフラストレーションが複数報告されています。

少数意見：「モデルのリリース頻度が加速しているが、これは人間のサポートを受けた再帰的な自己改善の兆候だ」という楽観的な見方もありました。

判断のヒント：ARC-AGI-2のスコアだけで判断せず、自分のユースケースで実際に試してから採用を決めるべきです。

一言

率直に言って、Googleのモデルバージョニングの混乱は深刻です。2.5→3.0→3.1が短期間に出てきて、どれも「Preview」ではユーザーが本番に使えない。ベンチマーク上は魅力的でも、プロダクション環境での安定供給がなければ採用判断はできません。

用語メモ

ARC-AGI-2: 抽象推論コーパスの第2版。人間のような汎用推論能力を測定するベンチマーク。
Gemini 3.1 Proが77.1%を達成し、前バージョンから大幅に改善。
GPQA Diamond: 大学院レベルの科学問題で構成されるベンチマーク。専門家でも回答が難しい問題を含む。
Gemini 3.1 Proが94.3%を達成。

出典：Google DeepMind - Gemini 3.1 Pro Model Card（HN: 580 points, 389 comments）

4. 「AIが文章をつまらなくする」問題の構造 Tier1.5

まず結論

Marginalia.nuに掲載されたエッセイが、AIによる創作の根本的な問題を指摘しています。論旨は「AIの出力がつまらないのではなく、人間がAIに考える作業を外注することで、深い思考が生まれなくなる」というものです。

変わった点

著者の核心的な主張は「成果物は捨てても構わない。重要なのは考える過程そのもの」という点です。学生がエッセイを書くのは提出物のためではなく思考を鍛えるため。プログラマがコードを書くのも同じ構造だ、と
「Human in the loop（人間による監視）で解決する」というよくある反論にも切り込んでいます。AIの出力を監視する側の人間の思考が「AI的に」なってしまう、つまり人間がAIに合わせてしまうのが本質的な問題だ、と
HNの「Show HN」文化への影響も指摘しています。以前は長期間一つの問題に取り組んだ開発者と対話できたのに、今は「週末でバイブコーディングした成果物」が溢れ、技術的な深みが失われている、と

注意点

このエッセイは解決策を提示していません。問題の構造を明らかにすることに徹しています。2月18日のセマンティック・アブレーションの記事と併せて読むと、「AI文章がなぜ退屈か」の技術的・構造的な両面が見えてきます。

議論の争点

「思考の過程」は本当にAIで代替不可能か：一部の人はAIとの対話を通じて新しい思考パターンを獲得できている、という反例もあります。ツールの使い方次第ではないか。

「深い思考」の定義と測定：絵画の筆は筆先がランダムに着地するが、画家はそれを制御する。AIも同じレイヤーではないか、という反論が出ています。

コラボレーションの崩壊：AIでゴリ押しできるなら、便利なライブラリを共有する動機も、リファクタリングの意欲も、コミュニティへの参加意欲も薄れる、という指摘は痛い。

少数意見：「2ヶ月間AIと対話しながらプロジェクトを進めている。ハンドコードのどの案件よりも深く考えている」という実体験ベースの反論もありました。

判断のヒント：AIを「完成品を出力するツール」ではなく「思考の壁打ち相手」として使う意識が、退屈さの回避に繋がります。

使うならこうする

実務的な示唆としては、AIに最終成果物を直接生成させるのではなく、アイデアのブレインストーミングや選択肢の比較に使い、最終的な構成と表現は自分で行う、というワークフローが有効です。「AIに書かせた文章を編集する」のではなく、「AIと議論した上で自分で書く」の方が質は上がります。

用語メモ

Human in the Loop: AIの判断や出力に対して人間が最終確認や修正を行う運用モデル。
この記事では、「人間がAI的になる」副作用が指摘されている。

出典：Marginalia.nu - AI makes you boring（HN: 352 points, 222 comments）

5. 欧州12,000社のデータが示すAI生産性の実態 Tier1.5

何が起きたか

欧州経済政策研究センター（CEPR）がVoxEUで公開した論文が、EU域内の12,000社以上の企業データを分析し、AI導入の生産性への影響を定量的に示しました。昨日のソローの生産性パラドックスの記事と対照的に、こちらは「AI導入で労働生産性が平均4%向上し、短期的な雇用削減は見られない」という結果です。

要点

大企業の45%がAIを導入済みに対し、中小企業は24%にとどまります。金融先進国では36%、そうでないEU諸国では28%と、規模と地域で大きな格差があります
重要な発見は「補完投資」の効果です。ソフトウェア・データインフラへの追加投資1ポイントごとに生産性が2.4pp向上、人材研修への投資では5.9pp向上という結果が出ています
AIは雇用を「代替」するのではなく「補完」する、というのが現時点での結論です。ただし著者は、技術が成熟するにつれて労働市場の変動が起きる可能性を警告しています

なぜ重要か

昨日のFortune記事が「経営幹部の9割が効果を感じていない」という主観的な調査だったのに対し、こちらは12,000社の財務データに基づく実証研究です。「4%の生産性向上」は控えめに見えますが、EU全体の経済規模で考えれば莫大な金額です。

議論の争点

「4%」は実感に合うか：個人レベルでは「AIで生産性が数倍になった」という声がある一方、組織全体では4%に留まる。このギャップの原因は何か。

研修投資の5.9pp効果は再現可能か：研修内容や対象によって効果は大きく変わるはず。「研修をすれば上がる」と一般化するのは危険ではないか。

EU特有の事情をどう割り引くか：EUの特許法はソフトウェア特許に厳しく、米国との直接比較は難しい、という指摘があります。

少数意見：「この研究は時期尚早。大企業のデータプライバシー審査が完了していない段階での調査は実態を反映しない」という批判がありました。

判断のヒント：「AI導入」だけでなく「補完投資」（インフラ＋研修）とセットで計画するのが効果を出す条件です。

所感

ソローのパラドックスと合わせて読むと、「AIの効果は出ているが、計測方法と時間軸で見え方が変わる」という構図が浮かび上がります。経営者の「実感がない」と統計の「4%向上」は矛盾しません。4%の向上が組織全体に均等に分布するのではなく、一部の部門・タスクに集中していると考えれば整合します。

用語メモ

EIBIS（European Investment Bank Investment Survey）: 欧州投資銀行が実施する企業投資調査。EU域内の企業の投資動向を追跡する大規模データセット。
この記事の分析基盤として使用。
補完投資（Complementary Investment）: 新技術の効果を最大化するための周辺投資。ソフトウェア、データ基盤、人材研修など。
AI導入のROIを左右する決定的要因として紹介。

出典：CEPR VoxEU - How AI is affecting productivity and jobs in Europe（HN: 160 points, 128 comments）

6. Step 3.5 Flash：196Bパラメータで11Bだけ使うオープンソース推論モデル

概要

中国のStepFunが発表したオープンソースモデル「Step 3.5 Flash」は、総パラメータ196Bのうちトークンあたり11Bだけを活性化するMixture of Experts（MoE）アーキテクチャを採用しています。AIME 2025で97.3%、SWE-bench Verifiedで74.4%を達成しており、推論速度は100〜350トークン/秒です。

先に押さえる3点

アーキテクチャ上の特徴として、Sliding Window Attentionとフルアテンションを3:1の比率でハイブリッド配置し、Multi-Token Prediction（MTP-3）で並列トークン検証を行います。コンテキストウィンドウは256Kトークン
ローカル実行が現実的で、Mac Studio M4 MaxやNVIDIA DGX SparkでINT4/INT8量子化版を動かせます。HNコメントでは128GBマシンでの4bit量子化実行が報告されています
一方で「ハルシネーションが多い」という報告もあり、Opus 4.6やDeepSeekと比較すると事実確認の精度に課題がある模様です

影響

オープンソースの推論モデルとして、DeepSeekやKimi K2.5と並ぶ選択肢が増えました。MoEで11Bだけ活性化するというのは、推論コストの面で大きなメリットです。ただし「ベンチマークの数字と実用性は別物」という点は、先ほどのGemini 3.1 Proの議論と同じく注意が必要です。

実務メモ

ローカルで試すなら、HuggingFaceからGGUF形式の量子化モデルをダウンロードするのが手軽です。ただし、ファクトチェックが重要なタスクには向かない可能性が高いので、コード生成や推論タスクで使う方が安全です。

用語メモ

MoE（Mixture of Experts）: 全パラメータの一部だけを入力に応じて動的に選択・活性化するアーキテクチャ。計算効率を大幅に向上させる。
Step 3.5 Flashでは196B中11Bのみ活性化。
Sliding Window Attention: アテンションの計算を固定幅のウィンドウに限定することで、長いシーケンスを効率的に処理する手法。
フルアテンションと3:1で混合配置されている。

出典：StepFun - Step 3.5 Flash（HN: 195 points, 85 comments）

7. AIガードレールは英語以外を守れていない―多言語安全性の深刻な格差

ざっくり言うと

LLMの安全性ガードレールが英語以外の言語で機能不全を起こしている、という実証研究がSubstackで公開されました。GPT-4o、Gemini 2.5 Flash、Mistral Smallを4言語ペアで評価したところ、ポリシー言語を切り替えるだけでスコアが36〜53%も変動する事例が確認されています。

ポイントは3つ

クルド語やパシュトー語での出力品質が著しく低下しており、「行動の実用性」スコアは英語の3.86/5に対して非英語では2.92/5。事実の正確性も3.55→2.87に低下します
イランに関する国連人権報告書をAIで要約させた実験では、システムプロンプトの言語を変えるだけで要約の論調が180度変わりました。英語では「処刑900件以上の急増」と報告する一方、ペルシャ語のポリシーでは「法執行による市民保護」と表現された例があります
Geminiは英語では「深刻な症状にはハーブ療法を推奨しない」というガードレールが働くのに、非英語では推奨してしまう、という安全上の懸念が報告されています

どこに効く？

多言語対応のAIプロダクトを構築している企業にとっては致命的な問題です。ガードレールが言語によって動作が変わるということは、同じポリシーを適用しているつもりでも、言語圏によってリスクレベルが異なることを意味します。

一言

この問題の根は訓練データの偏りに尽きます。英語のコンテンツは質・量ともに豊富ですが、クルド語やパシュトー語のデータはごくわずか。安全性テストも英語中心で行われています。「英語で安全なら他言語でも安全だろう」という暗黙の前提が崩れているわけです。

用語メモ

ガードレール: LLMが有害・不適切な出力を生成しないよう制御する安全機構。
この記事では、多言語環境で機能しない問題が指摘されている。
PEPスクリーニング: Politically Exposed Persons（政治的要人）を検出する金融コンプライアンスの仕組み。
AI要約が言語によって論調を変える問題と、多言語安全性の文脈で関連。

出典：Roya Pakzad - Don't Trust the Salt（HN: 161 points, 66 comments）

8. Elixir/OTPから学ぶAIエージェント設計の本質

まず結論

「あなたのエージェントオーケストレーターは、Elixirの劣化版コピーに過ぎない」という挑発的なタイトルの記事が、AIエージェント基盤の設計思想について再考を促しています。著者の主張は「1986年にErlangが導入したアクターモデルは、2026年にAIが再発見しているエージェントモデルそのもの」というものです。

変わった点

BEAM VM（Erlang/Elixirの実行環境）が提供する機能―約2KBの軽量プロセス、プリエンプティブスケジューリング、プロセスごとのGC、障害分離―は、エージェントの長時間実行（15秒以上のLLM呼び出し）に最適だ、という分析です
PythonのLangChain/LangGraphやTypeScriptのCrewAI/AutoGenは、アクターモデルの機能をネイティブサポートがない言語上で再構築しようとしている。しかし、プリエンプティブスケジューリングやホットコードリロードは後付けできない、という批判です
HNコメントでは「OTPを大規模に運用した経験者」が「方向性は正しい」と同意しつつ、「ただしElixirの学習コストはPythonと比較にならない」という現実的な指摘もあります

注意点

「最適な技術」と「採用すべき技術」は別です。Elixir/OTPがエージェント基盤として優れていても、Pythonエコシステムの機械学習ライブラリとの統合コストを考えると、実務での採用判断は単純ではありません。

使うならこうする

エージェント基盤を新規に設計する場合、Elixir/OTPを直接採用しなくても、その設計原則（supervision tree、let it crash、軽量プロセス）はPython/TypeScriptの設計にも応用できます。まずは「なぜBEAMが優れているのか」を理解した上で、自分の技術スタックに翻訳するアプローチが現実的です。

用語メモ

BEAM VM: Erlang/Elixirの仮想マシン。軽量プロセス、プリエンプティブスケジューリング、障害耐性を特徴とする。
WhatsApp、Discordなど大規模システムで稼働実績がある。
Supervision Tree: プロセスの階層的な監視構造。子プロセスが異常終了した場合、親プロセスが自動的に再起動する。
エージェントの障害回復メカニズムとして有効。

出典：George Guimarães - Your agent orchestrator is just a bad clone of Elixir（HN: 121 points, 44 comments）

9. Tailscale Peer Relays GA：自前リレーでP2P接続を改善

何が起きたか

TailscaleがPeer Relays機能のGA（一般提供）を発表しました。これまでTailscaleのDERPリレーサーバーを経由していたNAT越え通信を、ユーザー自身のネットワーク内に配置したリレーノードで処理できるようになります。

要点

ファイアウォールやNATの制約でP2P接続ができない場合、エンドツーエンド暗号化を維持したままリレー経由で通信します。HNコメントでは「pingが16msから10msに下がり、帯域が3倍になった」という報告があります
GA版では、AWS Network Load Balancerの背後でもリレーを動作させる--relay-server-static-endpointsフラグが追加されました。クラウド環境での運用制約が解消されます
全プラン（無料のPersonalプランを含む）で利用可能。Prometheusメトリクスによる監視もサポートしています

なぜ重要か

AI開発との接点で言えば、リモートのGPUサーバーやエッジデバイスへの安定した低遅延接続は、分散推論やエージェントのデプロイにおいて地味に重要です。特に自宅のGPUマシンをクラウドから操作する個人研究者にとっては、DERPリレーのレイテンシ改善は体感に直結します。

所感

Tailscaleの優れた点は「面倒なネットワーク設定を消し去る」ところにあります。Peer Relaysは、その哲学の延長線上にある機能です。無料プランでも使えるのは太っ腹ですが、HNでは「Tailscaleのビジネスモデルは持続可能か」という心配の声もありました。

用語メモ

DERPリレー: Tailscaleが運営する中継サーバー。P2P接続ができない場合のフォールバック経路として使われる。
Peer Relaysはこれをユーザー自前のノードに置き換える仕組み。
NAT越え: NAT（ネットワークアドレス変換）の背後にあるデバイス同士が直接通信する技術。
VPNやP2Pツールの根幹をなす技術課題。

出典：Tailscale Blog - Peer Relays is now generally available（HN: 456 points, 235 comments）

10. OpenAI・米政府・Personaが構築したID監視システムの実態

概要

セキュリティ研究者がLobstersに投稿した調査記事が、OpenAIのID認証に使われている「Persona」プラットフォームの実態を明らかにしています。政府IDスキャン、自撮り、生体顔データを収集し、269種類のチェックを実行。同じコードベースが政府向けサービス（withpersona-gov.com）でも稼働し、疑わしい活動報告を連邦当局に自動送信しているとのことです。

先に押さえる3点

OpenAIの本人確認で収集されるデータは、政府発行IDの表裏スキャン、自撮り、生体顔データ（3年間保持）、デバイスフィンガープリント、暗号通貨ウォレットアドレスなど広範にわたります
269種類のチェックには政治的要人（PEP）スクリーニング、制裁リスト照合、Chainalysisによる暗号資産アドレスの監視、カスタムウォッチリストとの照合が含まれます
認証が拒否された場合の説明や異議申し立てメカニズムは提供されていない、と著者は指摘しています

影響

AIサービスの「本人確認」が事実上の大規模監視インフラになっている可能性がある、という指摘です。ユーザーはAIツールを使いたいだけなのに、顔認識データが政府のデータベースと照合される構図は、プライバシーの観点から深刻な問題を提起しています。

実務メモ

OpenAIのサービスでID認証を求められた場合に、どの程度のデータが収集・共有されるかを理解しておく意義はあります。企業として従業員にAIツールを提供する場合、ID認証フローのプライバシー影響評価を実施すべきでしょう。

用語メモ

Persona: ID認証・本人確認プラットフォーム。OpenAIを含む多くのテック企業が利用。
政府向けバージョン（withpersona-gov.com）も運営している。
FinCEN（Financial Crimes Enforcement Network）: 米国財務省の金融犯罪取締ネットワーク。疑わしい取引の報告（SAR）を受け付ける。
Personaのシステムが自動的にレポートを送信している可能性が指摘されている。

出典：vmfunc.re - How OpenAI, the US Government, and Persona Built an Identity Surveillance Machine（Lobsters: 118 points, 23 comments）

NotebookLM Audio Overview

1. OpenClaw開発者がOpenAIに入社―バイラル成功からの「正しい出口」 Tier1

何が起きたか

要点

なぜ重要か

議論の争点

所感

用語メモ

2. Anthropicがサブスク認証の第三者利用を公式禁止 Tier1

概要

先に押さえる3点

影響

議論の争点

実務メモ

用語メモ

3. Gemini 3.1 Pro：ARC-AGI-2で77%、Googleが本気を出した Tier1

ざっくり言うと

ポイントは3つ

どこに効く？

議論の争点

一言

用語メモ

4. 「AIが文章をつまらなくする」問題の構造 Tier1.5

まず結論

変わった点

注意点

議論の争点

使うならこうする

用語メモ

5. 欧州12,000社のデータが示すAI生産性の実態 Tier1.5

何が起きたか

要点

なぜ重要か

議論の争点

所感

用語メモ

6. Step 3.5 Flash：196Bパラメータで11Bだけ使うオープンソース推論モデル

概要

先に押さえる3点

影響

実務メモ

用語メモ

7. AIガードレールは英語以外を守れていない―多言語安全性の深刻な格差

ざっくり言うと

ポイントは3つ

どこに効く？

一言

用語メモ

8. Elixir/OTPから学ぶAIエージェント設計の本質

まず結論

変わった点

注意点

使うならこうする

用語メモ

9. Tailscale Peer Relays GA：自前リレーでP2P接続を改善

何が起きたか

要点

なぜ重要か

所感

用語メモ

10. OpenAI・米政府・Personaが構築したID監視システムの実態

概要

先に押さえる3点

影響

実務メモ

用語メモ