2026.04.13

【10分で全部わかる】GoogleのAI講座をyt-dlpで字幕取得→要約｜AI・機械学習・生成AIの違いを初心者向けに解説

aifukugyolabo

「AIって最近よく聞くけど、結局なんなの？」——そう思ったことはありませんか？

GoogleがYouTubeで公開している10分間のAI入門動画「Google’s AI Course for Beginners」は、AI・機械学習・ディープラーニング・生成AIの違いを驚くほどわかりやすくまとめた名講座です。

今回はこの動画を、当ブログ実験中のyt-dlp（YouTubeから字幕を自動取得するツール）でダウンロードし、日本語に要約する実験を行いました。記事と実験の両立、いわば「一石二鳥」のコンテンツ制作フローです。

AI初心者の方にも「なるほど！」と思ってもらえるよう、動画の核心を余すところなくお届けします。

📋 この記事の目次

今回やったこと：yt-dlpで字幕取得→AI要約の実験
AIとは何か？3層構造で理解する
機械学習の2種類：教師あり学習と教師なし学習
識別モデルと生成モデルの違い
生成AIの種類と出力できるもの
LLMの仕組み：事前学習とファインチューニング
yt-dlp字幕取得の実際のコマンド
よくある質問（Q&A）

今回やったこと：yt-dlpで字幕取得→AI要約の実験

AI副業ラボでは現在、yt-dlp（YouTubeダウンローダーツール）を使って動画の字幕を取得し、AIで日本語要約する新しい記事制作フローを実験中です。

今回対象にした動画はこちらです。

📺 対象動画：Google’s AI Course for Beginners (in 10 minutes!)

🔗 URL：https://www.youtube.com/watch?v=Yq0QkCxoTHM

⏱ 長さ：約10分

🌐 言語：英語（字幕あり）

Googleが公式に提供しているAI入門コースで、世界中のAI初心者に向けてわかりやすく作られています。英語の動画ですが、yt-dlpで字幕ファイル（VTT形式）を取得し、日本語に翻訳・要約することで、英語が苦手な方にも内容を届けることができます。

編集長

英語の名講座も、yt-dlpを使えば字幕データとして取得できます。あとはAIに「日本語でわかりやすく解説して」と投げるだけ。これ、コンテンツ制作の革命じゃないですか？今後もどんどん実験していきますね！

AIとは何か？3層構造で理解する

動画でまず解説されるのが、AI・機械学習・ディープラーニングの関係です。この3つを混同している人はとても多いのですが、実は入れ子構造になっています。

概念	説明	範囲
AI（人工知能）	人間の知的行動をコンピュータで再現する技術全般	最も広い
機械学習（ML）	データからルールを自動学習するAIのサブセット	AIの中に含まれる
ディープラーニング（DL）	人間の脳神経を模したニューラルネットワークを使う機械学習の手法	MLの中に含まれる

つまり「AI ⊃ 機械学習 ⊃ ディープラーニング」という入れ子構造です。ChatGPTやGeminiなどの最新AIは、このディープラーニングを土台にしています。

✅ ポイントまとめ

・AIは「知的な振る舞いをするシステム全般」を指す大きな概念

・機械学習はAIを実現する手法のひとつで、データから自動でルールを学ぶ

・ディープラーニングは機械学習の中でも特に強力な手法で、画像認識や自然言語処理を得意とする

・ChatGPT・Gemini・Claudeはすべてディープラーニングがベース

機械学習の2種類：教師あり学習と教師なし学習

機械学習には大きく分けて2つのアプローチがあります。「教師あり学習」と「教師なし学習」です。

教師あり学習（Supervised Learning）

人間があらかじめ「正解ラベル」を付けたデータを使って学習させる方法です。

📌 教師あり学習の例

・「これは猫の写真」「これは犬の写真」とラベルを付けた画像を大量に学習 → 新しい写真が猫か犬かを自動判定できる

・「このメールはスパム」「これは正常」とラベル付け → 迷惑メールフィルターを作れる

・「この腫瘍は悪性」「これは良性」のデータで学習 → 医療診断AIを作れる

教師なし学習（Unsupervised Learning）

ラベルなしのデータをそのまま学習させ、AI自身がデータのパターンや構造を見つける方法です。

📌 教師なし学習の例

・購買履歴データから「似た傾向の顧客グループ」を自動発見 → マーケティングセグメンテーション

・大量の文章から「よく一緒に使われる単語」のパターンを抽出 → 文章の意味理解

・センサーデータから「通常とは異なる動作パターン」を検出 → 異常検知

識別モデルと生成モデルの違い

機械学習モデルは、その目的によって「識別モデル」と「生成モデル」の2種類に分かれます。この違いを理解することが、生成AIを理解する鍵になります。

種類	何をするか	代表例
識別モデル	入力データを分類・判定する	スパムフィルター、画像分類、顔認証
生成モデル	新しいコンテンツを生み出す	ChatGPT、Gemini、Stable Diffusion

識別モデルは「AかBか判断する」のが得意。一方、生成モデルは「ゼロから新しいものを作り出す」のが特徴です。

写真を見て「これは犬だ」と判定するのが識別モデル、「犬の絵を描いて」と言われて新しい犬の絵を生成するのが生成モデルです。どちらも同じ「機械学習」ですが、目的がまったく異なります。

生成AIの種類と出力できるもの

「生成AI」と一口に言っても、入力と出力の種類によって様々な種類があります。Googleの講座ではテキストを入力した場合に何を出力できるかという観点で整理されていました。

🤖 テキスト入力から生成できるもの

・テキスト→テキスト：
　質問に回答、文章要約、翻訳（例：ChatGPT、Claude）

・テキスト→画像：
　文章の説明から画像を生成（例：Stable Diffusion、DALL-E、Gemini）

・テキスト→動画：
　テキストから動画を生成（例：Sora、Veo）

・テキスト→3Dオブジェクト：
　3Dモデルを自動生成

・テキスト→タスク実行：
　エージェントAIが自律的に作業を実行

注目すべきは最後の「タスク実行」です。テキストで指示するだけで、AIが実際にパソコン操作・ファイル作成・検索などを自律的に行う「AIエージェント」は、まさに今注目の技術です。Claude Code・Claude in Chromeもこのカテゴリーに入ります。

LLMの仕組み：事前学習とファインチューニング

生成AIの核心にある技術がLLM（大規模言語モデル）です。LLMがどうやって作られるかを、Googleの講座では非常にわかりやすいたとえで説明していました。

事前学習（Pre-training）：まず「一般教育」を受ける

LLMはまず、インターネット上の膨大なテキストデータ（ウェブサイト、書籍、論文など）を学習します。これを「事前学習」と呼びます。

この段階では、言語の使い方・知識・論理的な推論能力など、「汎用的な知性」を身につけます。GPT-4やClaudeなどのモデルは、この事前学習に膨大なコンピューティングリソースと費用がかかるため、GoogleやAnthropicのような大企業でしか開発できません。

ファインチューニング（Fine-tuning）：「専門教育」で特定分野に特化

事前学習済みのLLMに対して、特定の専門データで追加学習させることを「ファインチューニング」と言います。

🐕 わかりやすいたとえ話（Google講座より）

・事前学習済みLLM ＝しつけが完了した賢い犬

・「おすわり」「ふせ」などの基本動作（言語理解）はすでにできている

・ファインチューニング＝そこに「捜索犬の訓練」「介助犬の訓練」など専門訓練を追加

・基礎能力を活かしつつ、特定のタスクに特化した能力を付加できる

ウィン・ウィンの構造

この仕組みが、AIエコシステム全体を「ウィン・ウィン構造」にしています。

役割	担当	メリット
基盤LLM開発	Google、Anthropic、OpenAIなど大企業	APIで収益化、技術的優位性の確立
ファインチューニング	病院・法律事務所・製造業など専門機関	ゼロから開発不要、専門AIを低コストで構築
利用者	個人・中小企業	高品質なAIを低価格または無料で利用できる

編集長

「大企業がLLMを作って、中小がカスタマイズして使う」——この構造、実はAI副業にもめちゃくちゃ関係あります！ClaudeやGPT-4のAPIを使って自分だけのAIツールを作ることも、一種の「ファインチューニング的な活用」と言えますよね。

yt-dlp字幕取得の実際のコマンド

この記事を制作するために実際に使ったコマンドを公開します。yt-dlpとChromeクッキーを組み合わせることで、YouTube側の制限を回避して字幕を取得できました。

STEP 1：yt-dlpのインストール

pip install yt-dlp

インストール後、コマンドが見つからない場合はフルパスで実行します。

/Users/（ユーザー名）/Library/Python/3.9/bin/yt-dlp –version

STEP 2：字幕ファイルのダウンロード

/Users/（ユーザー名）/Library/Python/3.9/bin/yt-dlp \
–write-sub \
–sub-lang en \
–skip-download \
–cookies-from-browser chrome \
-o ~/Desktop/google_ai_video \
https://www.youtube.com/watch?v=Yq0QkCxoTHM

💡 オプションの解説

・--write-sub：字幕ファイルを保存する

・--sub-lang en：英語字幕を取得（jaで日本語字幕も試せる）

・--skip-download：動画本体はダウンロードしない（字幕のみ取得）

・--cookies-from-browser chrome：ChromeのログインセッションをYouTubeに活用（PO token問題を回避）

・-o ~/Desktop/google_ai_video：保存先と名前を指定

STEP 3：VTTファイルをAIに渡して要約

取得したVTTファイル（字幕テキスト）をClaudeやChatGPTに貼り付け、「日本語でわかりやすく要約して記事を書いて」と指示するだけで、この記事のような日本語解説が完成します。

⚠️ 注意点

・macOSではChromeクッキー使用時にキーチェーンの許可が必要（Macのログインパスワードを入力→「許可」をクリック）

・yt-dlpのPATHが通っていない場合はフルパスで実行する

・著作権に注意：字幕データはあくまで「内容の学習・要約」に活用し、そのまま転載しないこと

よくある質問（Q&A）

Q. AIと機械学習は同じものですか？

厳密には違います。AIは「人間の知的行動をコンピュータで再現する技術全般」を指す広い概念で、機械学習はそのAIを実現するための手法のひとつです。機械学習は「データからルールを自動学習する」アプローチで、AIの中に含まれる下位概念になります。さらにその中に「ディープラーニング」という手法があり、ChatGPTやGeminiなどの最新AIはこのディープラーニングが基盤になっています。「AI ⊃ 機械学習 ⊃ ディープラーニング」という入れ子構造で覚えておきましょう。

Q. 生成AIと普通のAIはどう違いますか？

大きな違いは「何かを作り出すかどうか」です。従来のAI（識別モデル）は、入力されたデータを「分類・判定」するのが主な役割でした（例：スパムメールの判定、画像が猫か犬かの判断）。一方、生成AIは「新しいコンテンツを生成する」のが目的です。テキスト、画像、動画、3Dモデルなど、ゼロから新しいものを作り出す能力を持っています。ChatGPT、Claude、Gemini、Stable Diffusionなどがすべて生成AIに分類されます。

Q. ファインチューニングとプロンプトエンジニアリングは何が違いますか？

ファインチューニングは「モデル自体のパラメータを専門データで再学習させる」技術で、AIの挙動を根本から変えます。一方、プロンプトエンジニアリングは「モデルを変えずに、入力する指示文（プロンプト）を工夫して望む出力を引き出す」手法です。ファインチューニングはより深いカスタマイズが可能ですが、専門的な技術とデータが必要。プロンプトエンジニアリングはモデルをそのまま使うので手軽で、まず試すべきアプローチです。多くのAI副業は、プロンプトエンジニアリングから始めるのがおすすめです。

Q. yt-dlpで字幕を取得するのは著作権的に問題ありませんか？

字幕ファイルのダウンロード自体は、個人的な学習・研究目的の範囲では問題ないとされることが多いですが、取得した字幕をそのままブログ等に転載するのは著作権侵害になる可能性があります。今回の記事のように「内容を学習し、自分の言葉で要約・解説する」形が安全な活用方法です。また、YouTubeの利用規約では自動化ツールの使用を制限している場合があるため、個人の学習・研究目的に限定した利用を心がけましょう。

Q. 日本語字幕がない動画でも要約記事は作れますか？

はい、作れます！今回の実験がまさにそれです。英語字幕しかない動画でも、yt-dlpで英語VTTファイルを取得し、ClaudeやChatGPTに「この英語字幕を日本語でわかりやすく要約して」と指示するだけで、高品質な日本語解説記事が作れます。むしろ英語の一次情報をAIが翻訳・要約するため、まだ日本語で紹介されていない価値ある情報を早くお届けできるというメリットもあります。海外の技術動画・教育コンテンツは良質なものが多いので、どんどん活用しましょう。

まとめ

今回はGoogleのAI入門講座をyt-dlpで字幕取得し、日本語で要約する実験を行いながら、AI・機械学習・生成AIの違いを解説しました。

📌 この記事のまとめ

・AI ⊃ 機械学習 ⊃ ディープラーニングという入れ子構造で理解する

・機械学習には「教師あり学習（ラベル付きデータ）」と「教師なし学習（ラベルなしデータ）」がある

・AIモデルは「識別モデル（分類）」と「生成モデル（新コンテンツ生成）」に大別される

・LLMは事前学習（汎用知識）＋ファインチューニング（専門特化）の2段階で作られる

・yt-dlp＋AIで「英語YouTube動画→日本語要約記事」のコンテンツ制作フローが実現できる

AI副業ラボでは今後もyt-dlpを使った記事制作実験を続けていきます。「こんな動画を要約してほしい！」というリクエストがあればコメント欄でお知らせください。

次回もお楽しみに！

#AI入門 #Google #LLM #YouTube要約 #yt-dlp #機械学習 #生成AI