0%
約5分 0文字

文字起こし

文字起こしといえばlocalで動くWhisperが有名ですよね

登場してから大分年月が経っているので、正直最近は使っていませんでした

ただClaude codeで適当に遊ぶには良い題材だと思いました

手本

手本にしたのはMemo というアプリです

これは動画やポッドキャストを文字起こししてくれるPCアプリです

localに文字起こしモデルをおいて、それを使って文字起こしをしてくれます

ただし、GPUモードを使うには有料版が必要です

これの良い所は文字起こし結果からLLMを使ってまとめや翻訳が出来るところ

でもCPUでの文字起こしは時間が掛かる

そこで、GPU文字起こしを自作することにしました

改善点

文字起こしは普通ですがLLMの使い方を変えました

LLMによって、

  • フィラーの削除

  • 文脈やtitle情報から間違えた文字起こしの修正

  • 意味段落毎の分割

  • 要約の作成

を行いました

これによって動画をみなくて棲みますし、出来上がったfileを obsidianに自動で保存する機能も作りました

知識の一元化には一役買ってくれています

まとめ

Vibecodingの良い所はアイデアを形にするスピードがあがったこと

自分用にカスタマイズした物が作れるのは最高です

GPU版Whisper + LLMで動画を自動要約してObsidianに保存する仕組みを作った

著者

semiramisu

公開日

2025 - 08 - 21

ライセンス CC BY-NC-SA 4.0

応援お待ちしています!

もしこの記事が役に立ったら、コーヒー1杯分の支援をいただけると嬉しいです。 いただいた支援は、より良いコンテンツ作成のために使わせていただきます。

PayPayで支援する

QRコード

(PayPayアプリで読み取ってください)

PayPay ID: @your-paypay-id

※ PayPayアプリの「送る」から
上記IDを検索してください

Buy Me a Coffeeで支援する

Buy Me A Coffee

クレジットカードやPayPalで支援できます

コメント