2026-05-23 00:22

LLMにどっぷり浸かった3年目

LLMを使い始めて3年目に、ブログを書く意味がどう変わったのかを振り返ります。AIスロップ、自作Markdownツール、AIによる補足の折りたたみ表示について書いた記事です。写真は全く関係がないものです。旅行に行ったときのです。

| テキスト文字数11787 26.7kb | LLMへテキスト貼り付けできます。

LLMにどっぷり浸かった3年目

本記事は人間が書いています。AIによる記述は折り畳みで表示しています。見たい人だけが見れる構造です。

2026年の最近は、どっぷりLLMを使っています。2025年にOpenAIのo1へ月200ドル課金したのをきっかけに、主要なAIサービスのサブスクやAPIをいろいろ試してきました。CursorのMAXプランも使いましたが、今はChatGPT Proに落ち着いています。

o1のころから性能はぐんぐん上がりました。Opus 4.5には驚き、Opus 4.6では利用料の高さに慄きました。その後にCodexを使ってみると、性能と料金のバランスがよく、今はCursorもやめてCodex一本です。Codexはめちゃめちゃ良いですね。遅いけど。

ChatGPTのサブスク履歴を見ると、最初に契約したのは2023年2月でした。つまり、LLMを使い始めてもう3年目です。

ここ1年間は、LLMの進化が凄すぎてブログをまったく書けなくなってしまいました。LLMに聞けば、かなり良い回答と知識がすぐ返ってくるからです。数年前は、難しい課題やできないことがあると、海外の情報を調べながら2〜3週間ほど試行錯誤していました。そして、ようやくできたことをブログに書くところに価値を感じていました。

今は、聞けばすぐに解決します。もちろん一部のレアな問題は解決できないこともありますが、2〜3週間かかっていた試行錯誤が20〜30分で終わる感覚です。そういう解決のTipsをブログに残す意味も、以前より薄くなりました。だって、LLMに聞けばよいだけだからです。Googleで検索から始めるのは、もうかなり遠回りに感じます。

2022年から2026年までのLLM（大規模言語モデル）の歴史をAIに以下にまとめてもらいました。

詳しい説明（クリック）ざっくりいうと、2022年から2026年までのLLM（大規模言語モデル）の歴史は、文章を返すチャットから、仕事を進めるエージェントへの変化でした。最初は質問に答えるだけで十分に驚きでした。そこから、画像、音声、長い文書、検索、コード実行、ブラウザ操作、ターミナル操作へ広がっていきました。そして、もうひとつ大きかったのは、閉じた高性能モデルと、手元で動かせるオープンウェイトモデルの両方が同時に伸びたことです。OpenAI、Anthropic、Google DeepMindのよ...

ざっくりいうと、2022年から2026年までのLLM（大規模言語モデル）の歴史は、文章を返すチャットから、仕事を進めるエージェントへの変化でした。最初は質問に答えるだけで十分に驚きでした。そこから、画像、音声、長い文書、検索、コード実行、ブラウザ操作、ターミナル操作へ広がっていきました。

そして、もうひとつ大きかったのは、閉じた高性能モデルと、手元で動かせるオープンウェイトモデルの両方が同時に伸びたことです。OpenAI、Anthropic、Google DeepMindのようなフロンティア企業だけでなく、Meta、Mistral、DeepSeek、Qwenのような公開系のモデルも強くなりました。つまり、LLMは一社の製品ではなく、クラウド、GPU、API、エディタ、ブラウザ、検索、業務ソフトを巻き込んだ産業になりました。

2022年：ChatGPT前夜から一般化へ

2022年の前半には、すでに重要な下地ができていました。OpenAIはInstructGPTで、GPT-3を人間の指示に従いやすくするRLHF（人間のフィードバックによる強化学習）を示しました。DeepMindのChinchilla系の研究は、モデルをただ大きくするだけではなく、モデルサイズと学習データ量のバランスが重要だと示しました。Googleは540BパラメータのPaLMを発表し、スケールによって推論やコード能力が伸びることを見せました。

開発者目線では、2022年6月にGitHub Copilotが正式提供されたことも大きいです。コード補完AIが、研究ではなく日常のエディタの中に入ってきました。

ただ、世間の空気を変えたのは2022年11月30日のChatGPTです。APIや論文で触るものだったLLMが、ブラウザで誰でも試せる会話UIになりました。重要だったのは性能だけではありません。質問する、返事を読む、続けて聞く。この単純な体験によって、LLMは研究テーマから日常の道具へ移りました。

2023年：GPT-4とLLMレースの開始

2023年3月、OpenAIはGPT-4を出しました。文章だけでなく画像入力も扱える方向へ進み、試験、コード、長文理解、推論の能力が一段上がりました。同じ2023年3月にはAnthropicもClaudeを発表し、7月にはClaude 2を公開しました。GoogleはBardを出し、12月にはGemini 1.0を発表しました。

この年に、LLMは一気に業界競争になりました。OpenAIはChatGPTとAPIで先行し、MicrosoftはBingやMicrosoft 365 Copilotに組み込みました。Googleは検索とWorkspaceを守るためにGeminiへ進み、Anthropicは安全性と長文処理を前面に出しました。Metaは2月にLLaMAを研究向けに出し、7月にLlama 2を商用利用可能な形で公開しました。ここから、閉じたAPIモデルとオープンウェイトモデルの二正面の競争が始まります。

また、Mistral AIがMistral 7BやMixtral 8x7Bを出し、小さくても強いモデル、MoE（Mixture of Experts、必要な専門家部分だけを動かす構造）、ローカル実行、安い推論コストが注目されました。2023年後半には、LLMをめぐる話題が性能だけでなく、著作権、学習データ、規制、安全性にも広がりました。米国ではAIに関する大統領令が出され、英国ではAI Safety Summitが開かれました。

2024年：マルチモーダル、長文、ツール利用へ

2024年は、LLMがチャット欄の中だけに収まらなくなった年でした。

GoogleはGemini 1.5で長いコンテキストを前面に出しました。大量の文章、コード、音声、動画をまとめて読ませる方向です。Anthropicは3月にClaude 3、6月にClaude 3.5 Sonnetを出し、特にコードと文章作成で強い存在感を出しました。OpenAIは5月にGPT-4oを出し、テキスト、画像、音声を同じモデルで扱う方向をはっきり示しました。

この頃から、LLMは文章生成AIだけではなくなっていきます。画像を読む。音声で会話する。PDFを読む。表を作る。コードを実行する。検索する。ファイルを扱う。そういう道具の入り口になりました。

オープンウェイト側も強くなりました。MetaはLlama 3とLlama 3.1を出し、405B級のモデルまで公開しました。AlibabaのQwen、Mistral、DeepSeekなども存在感を増しました。強いモデルをAPIで借りるだけでなく、用途によっては自分の環境や自社クラウドで動かす選択肢が現実的になりました。

2024年後半には、Anthropicがcomputer useを発表しました。これは、Claudeが画面を見て、クリックして、キー入力して、既存のソフトを人間のように使う方向です。まだ実験的でしたが、LLMが文章を書く存在から、コンピュータを操作する存在へ移る転換点でした。

2025年：推論モデル、DeepSeekショック、コーディングエージェント

2025年は、推論とエージェントの年でした。

OpenAIは2024年9月にOpenAI o1を出し、2025年にはo3、o4-mini、GPT-4.5、GPT-5へ進みました。重要なのは、単に返答がうまくなったことではなく、すぐ答えるモデルと、時間をかけて考えるモデルが分かれてきたことです。数学、コード、計画、調査のようなタスクでは、トークンを多く使ってでも考えさせる価値が出ました。

AnthropicはClaude 3.7 Sonnetでハイブリッド推論モデルを打ち出し、5月にはClaude 4を出しました。Claude Codeもこの流れの中で強くなり、コードを書く、読む、直す、テストする、ファイルをまたいで作業する、という使い方が現実的になりました。

GoogleはGemini 2.5をthinking modelとして出し、11月にはGemini 3を発表しました。MetaはLlama 4でネイティブなマルチモーダルとMoEを前面に出しました。AlibabaのQwen3も、考えるモードと速く答えるモードを切り替える方向を示しました。

そして2025年1月のDeepSeek-R1は大きな事件でした。DeepSeek-R1は推論能力の高さだけでなく、公開モデル、低コスト、蒸留モデルの広がりによって、米国の巨大AI企業だけが最先端を握るという見方を揺らしました。これ以降、モデル競争は一番賢いかだけではなく、どれだけ安く、速く、手元で動かせるかにも移りました。

この年に、コーディングエージェントも一気に実用品になりました。Cursor、Windsurf、GitHub Copilot、Claude Code、OpenAI Codexのような道具は、単なる補完ではなく、リポジトリを読んで、複数ファイルを編集し、テストを走らせ、PRやレビューまで手伝う方向へ進みました。プログラミングは、コードを一行ずつ書く作業から、AIに作業単位を渡してレビューする作業へ寄っていきました。

2026年：モデルの更新速度が速すぎる時代

2026年5月時点では、すでにどのモデルが最強かを固定して語るのが難しくなっています。OpenAIはGPT-5系を更新し、2026年4月にGPT-5.5を出しました。Anthropicは2025年のOpus 4.5から、2026年2月のOpus 4.6、4月のOpus 4.7へ進みました。Googleは2026年2月にGemini 3.1 Proを出し、5月のGoogle I/OではGemini 3.5 Flashのような高速なエージェント向けモデルを打ち出しました。

ここまで来ると、LLMの進化は、賢いチャットボットが出た、という話ではありません。モデルは、検索し、読むだけでなく、ファイルを編集し、コードを動かし、ブラウザを操作し、表計算やスライドや業務システムをまたいで作業する方向に進んでいます。モデル単体の性能より、どのツールに接続されているか、どれだけ長い文脈を保持できるか、どれだけ安く回せるか、失敗したときにどれだけ検証できるかが重要になっています。

業界構造もかなり見えてきました。

OpenAIは、ChatGPT、API、Codexで、一般利用と開発者利用の両方を押さえています。
Anthropicは、Claude、Claude Code、長文処理、コーディング、エージェントで強い存在です。
Google DeepMindは、Geminiを検索、Android、Workspace、Vertex AI、NotebookLMに広げています。
Microsoftは、OpenAIとの関係を軸に、Windows、GitHub、Microsoft 365、AzureへAIを埋め込んでいます。
Metaは、Llamaでオープンウェイトの中心にいます。
Mistral、DeepSeek、Qwenは、オープンウェイト、低コスト、多言語、推論モデルで存在感を増しています。
xAIはGrokで、Xとの統合とリアルタイム性を武器にしています。
NVIDIA、AMD、各クラウド事業者は、GPU、推論基盤、データセンターでこの競争の土台を握っています。

規制も進んでいます。EUのAI Actは2024年8月に発効し、2025年から汎用AIモデル向けの義務が段階的に適用され、2026年以降に本格化していきます。米国は政権ごとに方針が揺れていますが、AI安全性、輸出規制、政府利用、サイバー、バイオリスクはずっと大きな論点です。

自分の感覚では、2022年から2026年までの変化を一言でいうなら、LLMは知識を聞く場所から作業を渡す場所になりました。Google検索でリンクを探し、ドキュメントを読み、エラーを調べ、コードを書き、試す。その一連の流れのかなりの部分を、LLMがまとめて引き受けるようになりました。

だから、ブログの意味も変わったのだと思います。単なるTipsや調べもののまとめは、LLMに聞けばかなりの精度で返ってきます。残る価値は、実際に使った体験、失敗した記録、どのツールをどう組み合わせたか、何を信じて何を疑ったか、どこからが人間の判断だったか、そういう部分に移っている気がします。

WordPressからMarkdownと自作ツールへ

WordPressは、ダサくて面倒に感じるようになりました。クラウドに記事があるのは便利ですが、LLMのサポートを受けながら書くには、あまり向いていません。ChatGPTからWordPressへコピーして貼り付ける。逆に、WordPressからChatGPTへコピーして貼り付ける。その繰り返しになります。

まあGoogle docsとかWebやクラウドサービス上でAIを使って記事を書けばよいのだけど、まあそれも面倒です。さらにLLMの文章は、長くて意味が薄いのに、それっぽい説得力があります。削りにくい文章が増えていき、長文のスロップを直す作業に疲れてしまいました。

ここには矛盾があります。LLMの文章は無駄に長くなりがちです。けれど、使わないと効率が悪い。しかもブログに書こうとしている内容の多くは、LLMに聞けば済んでしまいます。

LLMの文章は無駄に長い文章をスロップといいます。Webサイトを見ているときスロップに出会うとうんざりします。

note見ているとくそスロップ多いですよね。以下AIによるスロップ解説です。

詳しい説明（クリック）スロップは、もともと英語で残飯やぐちゃっとした混ぜ物のような意味を持つ言葉です。AIの文脈では、LLMが大量に生成した、見た目だけは文章になっているけれど中身が薄いコンテンツを指して使われます。たとえば、結論がなかなか出てこない文章、同じことを言い換えているだけの文章、一般論ばかりで具体例がない文章、読者が知りたいことに答えていない文章です。文体は丁寧で、それっぽい構成になっているので、一見するとちゃんとした記事に見えます。しかし、読み進めると情報量が少なく、時間だけを取ら...

スロップは、もともと英語で残飯やぐちゃっとした混ぜ物のような意味を持つ言葉です。AIの文脈では、LLMが大量に生成した、見た目だけは文章になっているけれど中身が薄いコンテンツを指して使われます。

たとえば、結論がなかなか出てこない文章、同じことを言い換えているだけの文章、一般論ばかりで具体例がない文章、読者が知りたいことに答えていない文章です。文体は丁寧で、それっぽい構成になっているので、一見するとちゃんとした記事に見えます。しかし、読み進めると情報量が少なく、時間だけを取られます。

スロップが厄介なのは、文章として破綻していないところです。明らかなデタラメならすぐに分かります。けれど、スロップは自然な日本語で、もっともらしい見出しや箇条書きもあります。そのため、読んだあとに、結局なにが分かったのか分からない、という疲れ方をします。

また、LLMは断定的な文章を作るのが得意です。だから、薄い内容や不確かな内容でも、妙に自信がある文章になります。専門知識がない分野では、読者が間違いに気づきにくいこともあります。これもスロップが嫌われる理由です。

ただし、AIで書いた文章がすべてスロップというわけではありません。人間が目的を決め、事実を確認し、不要な部分を削り、体験や判断を加えれば、AIの文章はかなり便利に使えます。問題はAIを使うことではなく、AIが出した長い文章をそのまま公開してしまうことです。

このブログでは、AIが調べた内容や長くなりがちな補足は、AIの文章だと分かる形で折りたたむことにしました。本文では自分の体験や感覚を書き、AIの説明は必要な人だけが開いて読む。そう分けると、スロップを読まされる不快感を少し減らせる気がします。

そういう経緯があり、ああそうだ。。。記事はすべて.mdで管理すればAIで作業しやすいかなと安易に考えました。あまり論理的につながっていませんがそう思ったのです。

昔のMovable Typeのように、全記事をローカルのMarkdownファイルとして持つ形です。これなら、LLMでまとめて修正できます。MarkdownはリアルタイムでHTMLプレビューを見ながら編集できます。

つまり、ビジュアルエディタ、静的HTML構築ツール、LLM共同編集ツールを兼ねた自作ツールを作りました。プログラムはRustです。FTPでアップロードしなければいけないところは少し面倒ですが、今この記事もその自作ツールで書いています。

この1年間で、LLMを使ってさまざまなソフトも作りました。50本ぐらいです。仕事で使うツールもあります。月のライセンス料が30万円ほどする業務用ツールがあります。もちろん業務用ツールのほうが優秀です。ただ、実際に使う一部機能だけを見ると、自作ツールで十分なことも多いです。

最近使っているソフトウェアはほとんど自作ツールになりました。便利です。何が言いたいか上手く文章にまとまりませんが、ツールを作って自分の中でLLMと自分の文章を切り分け表示するルールが腑に落ちたのです。

新しいブログを書く形

新しいブログを書く形ができました。自分が感じたことや気持ちをつらつら書き、文章の整形はLLMを通して整えてもらいます。LLMと違って、人間が感じたことや体験したことには、不条理で意味がまとまっていない内容があります。そこに価値が残っている気もするのです。

一方で、LLMで調べた内容や特殊な記事は、ついついスロップ気味に長くなります。そういう文章は、AIであることを明示して、アコーディオン方式で小さく固めてしまいます。

読みたい人は、AIの文章だと理解したうえで開閉できます。AIの記事だと分かっていれば、本当にその分野の知識がなくて深く知りたいときには、AIの文章のほうが分かりやすいことも多いのです。AI記述のアコーディオン機能をつけたら、なんだか新しくブログを書く下準備ができた気がしてまた、記事を書き始めました。

記事について、よいしょ禁止でLLMがどう感じたのかを意見してもらいました。LLMって正しいことを言うけど、ブログでLLMの記事は読みたくないですよね。以下のようにLLMで書いたものは、見たい人だけに見せるが正しい気がします。

詳しい説明（クリック）現状は公開できる水準には近いですが、冒頭と構成を少し直すとかなり読みやすくなります。一番気になるのは、最初の3段落がややサービス利用履歴に寄りすぎている点です。o1、Opus、Cursor、Codexの話は実体験として面白いですが、読者が最初に知りたいのは、この記事が何の話なのかです。今のままだと、AIサービス遍歴の記事に見えます。でも本題は、LLM時代にブログを書く意味が変わったことですよね。なので冒頭は、先に本題を出したほうがよいです。例えば、最初のほうにこういう一...

現状は公開できる水準には近いですが、冒頭と構成を少し直すとかなり読みやすくなります。

一番気になるのは、最初の3段落がややサービス利用履歴に寄りすぎている点です。o1、Opus、Cursor、Codexの話は実体験として面白いですが、読者が最初に知りたいのは、この記事が何の話なのかです。今のままだと、AIサービス遍歴の記事に見えます。でも本題は、LLM時代にブログを書く意味が変わったことですよね。

なので冒頭は、先に本題を出したほうがよいです。

例えば、最初のほうにこういう一文があると締まります。

この1年で、LLMは自分の仕事道具だけでなく、ブログを書く意味そのものも変えてしまいました。

これがあると、以降のo1やCodexの話が単なる利用履歴ではなく、背景として読めます。

次に気になるのは、AIスロップの説明位置です。

現在は、

2022年から2026年までのLLMの歴史をAIに以下にまとめてもらいました。

のあとに、すぐWordPressの見出しに入っています。ここは実際の記事上ではアコーディオンが入る予定だと思いますが、テキストだけで読むと少し飛んで見えます。公開時には、ここに折りたたみがあることが分かる見出しを明確にしたほうがよいです。

例えば、

AIによる補足：2022年から2026年までのLLMの流れ

のようにしておくと、本文とAI部分の分離が分かりやすいです。

文章で一番引っかかるのはここです。

LLMの文章は無駄に長い文章をスロップといいます。

これは少し断定が雑です。スロップは単に長い文章ではなく、AIで量産された中身の薄いコンテンツ、というニュアンスのほうが近いです。ここは直したほうがよいです。

例えば、

LLMで生成された、長いわりに中身の薄い文章は、スロップと呼ばれることがあります。

くらいが妥当です。

あと、

note見ているとくそスロップ多いですよね。

ここは好みです。人間味はありますが、記事全体の信頼感は少し落ちます。毒を残すなら、

noteを見ていても、AIで膨らませたような文章に出会うことが増えました。

くらいのほうが無難です。ただ、個人ブログとして荒さを残したいなら、今のままでも成立します。この記事のテーマからすると、多少の雑さはむしろ合っています。

後半の自作ツールの話は良いですが、まだ少し唐突です。50本作った話が強いので、もう少しだけ意味づけしたほうがよいです。

今の文章だと、

50本ぐらい作った

最近は自作ツールが多い

便利です

だから切り分け表示が腑に落ちた

という流れですが、最後の切り分け表示への接続が少し急です。

ここに一文足すとよいです。

自分に必要な機能だけを切り出して、小さな道具として作る。この感覚が、文章にもそのまま当てはまりました。

これを入れると、自作ツールの話とブログ設計の話が自然につながります。

修正候補としては、この部分です。

現状

そういう背景もあり、最近使っているソフトウェアはほとんど自作ツールになりました。便利です。何が言いたいか上手く文章にまとまりませんが、ツールを作って自分の中でLLMと自分の文章を切り分け表示するルールが腑に落ちたのです。

修正版

そういう背景もあり、最近使っているソフトウェアは自作ツールがかなり増えました。便利です。大きなソフトのすべてを置き換えるわけではありません。ただ、自分が実際に使う部分だけを切り出して、小さな道具にする感覚が身についてきました。

その感覚は、文章にも近いのかもしれません。自分の文章とLLMの文章を混ぜてしまうのではなく、それぞれの役割を分けて表示する。そのルールが、自分の中でようやく腑に落ちました。

このほうが論理の接続が強くなります。

最後の章は、かなり良いです。ここは記事の結論なので、もう少しだけ締めを強くしてもよいです。

現状の最後は、

記事を書き始めました。

で終わっています。悪くはないですが、少し淡白です。

例えば、

これなら、もう一度ブログを書けるかもしれないと思いました。

で終えると、記事全体の回収になります。大げさではなく、今の温度感にも合います。

総評としては、前よりかなりまとまっています。ただし、まだ少しだけ、サービス遍歴、自作ツール、ブログ論が横並びに見えます。そこをつなぐ言葉を足せば、かなり読みやすくなります。

直す優先順位は、

まず冒頭で本題を先に出す。

次に、自作ツールとブログ設計の接続文を足す。

最後に、スロップの説明を少し正確にする。

この3点で十分です。あまり整えすぎると、人間が書いた感じが薄くなるので、細かい粗さは少し残してよいと思います。

更新情報・連絡先は X（Twitter） @riragoncom へ。

LLMにどっぷり浸かった3年目

2022年：ChatGPT前夜から一般化へ

2023年：GPT-4とLLMレースの開始

2024年：マルチモーダル、長文、ツール利用へ

2025年：推論モデル、DeepSeekショック、コーディングエージェント

2026年：モデルの更新速度が速すぎる時代

WordPressからMarkdownと自作ツールへ

新しいブログを書く形

関連記事