GPU版Whisper + LLMで動画を自動要約してObsidianに保存する仕組みを作った
文字起こし
文字起こしといえばlocalで動くWhisperが有名ですよね
登場してから大分年月が経っているので、正直最近は使っていませんでした
ただClaude codeで適当に遊ぶには良い題材だと思いました
手本
手本にしたのはMemo というアプリです
これは動画やポッドキャストを文字起こししてくれるPCアプリです
localに文字起こしモデルをおいて、それを使って文字起こしをしてくれます
ただし、GPUモードを使うには有料版が必要です
これの良い所は文字起こし結果からLLMを使ってまとめや翻訳が出来るところ
でもCPUでの文字起こしは時間が掛かる
そこで、GPU文字起こしを自作することにしました
改善点
文字起こしは普通ですがLLMの使い方を変えました
LLMによって、
-
フィラーの削除
-
文脈やtitle情報から間違えた文字起こしの修正
-
意味段落毎の分割
-
要約の作成
を行いました
これによって動画をみなくて棲みますし、出来上がったfileを obsidianに自動で保存する機能も作りました
知識の一元化には一役買ってくれています
まとめ
Vibecodingの良い所はアイデアを形にするスピードがあがったこと
自分用にカスタマイズした物が作れるのは最高です
コメント