Pythonでの多言語翻訳の探求

前回のエントリーでは音声ファイルからテキスト化を行いましたが、日本語音声から日本語テキストへの変換でした。実は英語の変換に関してはWhisperの解析時のオプション(task=”translate”)の追加を行うだけで行えるのですが、英語以外の言語に変換するにはどうすればと悩んでしましました。

英語だけでもいいじゃないかということもありますが、自分の住んでいる地域はブラジル(言語はポルトガル語)の方が結構いるので、そういう方々に向けて情報を出すのは比較的需要あるかな?ってことで調べてみました。

【参考】

外国人住民数を国籍別に見ると、ブラジルが60,397人で、全体の21.1%を占め、ベトナム49,719人(17.3%)、中国43,918人(15.3%)、フィリピン41,918人(14.6%)、韓国・朝鮮28,864人(10.1%)、ネパール12,844人(4.5%)と続いています。

https://www.pref.aichi.jp/soshiki/tabunka/gaikokuzinjuminsu-2022-12.html

続きを読む

Whisperを使ってYouTube字幕ファイルの作成がこれほど簡単だったなんて!

少し前のエントリでYouTubeから音声データをダウンロードするといった内容のことをやっていたのですが、それならその音声データをWhisperに入力し、生成された音声解析のテキストデータをYouTubeの字幕ファイルに変えてみたらどうなるかなと思っていました。Whisperのログ出力はほぼそのままでも字幕ファイルフォーマットであるSRTファイルに近い出力フォーマットになっているからです。

uepon.hatenadiary.com

ただ、そのまま取り出した文字データはタイムコードのないモノになるので、後で処理を行うと面倒なことになります。今回はWhisperを使用し、ログファイルとして出力されたデータをファイル化してYouTubeでも使用可能な字幕データにしてやろうという試みです。

続きを読む

日経Linux11月号に寄稿しました!おすすめPython小ネタを紹介!

日経Linux11月号が今月発売されています。今回もちょっとだけですが、記事を書かせていただいていたので、 発売されているところを見に行きました。書かせていただいていると、こういうのことが楽しかったりする😀

内容としては「お薦めコマンド&スクリプト」のPython部分を書かせていただいております。 自分はあまりPythonについては詳しくなかったのですが、この記事に合わせてかなり勉強をさせていただいたかなと思います。 これまでもPythonのプログラムを書くことはありましたが、人にコードが見られると思うと、それなりのレベルや、書き方にしないと恥ずかしいですし…

内容としては便利な小ネタということで以下のようなものになります。

  • WebPファイルからJPEGファイルへの変換
  • HEICファイルからJPEGファイルへの変換
  • Pythonクリップボードの連携
  • Slackへの投稿
  • Whisperによる音声解析
  • ChatGPT APIの使用

を書いています。他にも小ネタはあったのですが、その中でも使えそうな内容が採用となっています。Notionへのデータの格納なども書いてみたかった😂 今回の記事でかなりPythonについても書けるようになり初学者から初心者のレベルにはなれたかも。

PythonUbuntu 23.04からはPEP 668の影響によってすんなりpipが使えないとかいう罠もありましたが、なんとか完成までこぎつけました。 編集のご関係者の方々ありがとうございました。

おわりに

先日、X(旧Twitter)では次号1月号で休刊という情報がでていました。

今年に入ってからは何度か寄稿の機会をいただいていたのでとてもさみしいです。 これまでありがとうございました😢

Pythonとyt-dlpを活用した動画・音声のダウンロード方法

ちょっと前まで、とある原稿を書いていたのですが、その時の没ネタを少しメモしておきます。

Pythonを使用した便利な処理ということでのネタ探しでしたが、紙面の関係と、微妙に権利関係の懸念もあって没としていました。 内容としてはYouTubeの動画および、音声のダウンロードとなります。

調べたきっかけ

たまに自分の作成した動画(機器のデモなど)はチャチャっと作ってすぐ見せるということがほとんどのため、 元ファイルを削除してしまったり、無くすことがかなりあります。多くの場合には何回も使用することがないため、それで問題は発生しません。 稀に、同じ作品の動画を使いたいとなったときには元ファイルがないので、困ってしまいます。 そこで、YouTubeにはアップロードしていることもあるので何とかそれを素材として使用したいという要望のため、やってみたということになります。

そういうサービスは別でWebサービスとしてもありますが、今回はPythonを使用したプログラミングで行います。動作環境はUbuntu24.04 LTSとなります。

(注意) 本記事で紹介する方法は、技術的な紹介を目的としています。YouTubeの動画をダウンロードする行為は、利用規約著作権法に抵触する場合があります。この内容を使用して行う行為についての全ての責任は、使用したユーザー自身にあります。違法なダウンロードや著作権侵害等、法律に違反する行為は厳禁です。何らかのトラブルや損害が発生した場合、筆者は一切の責任を負いかねますので、十分にご注意ください。

続きを読む

GUI不要!UbuntuにコマンドラインだけでChromeをスムーズにインストールする方法

私はUbuntuを定期的にクリーンインストールするような作業を行っています。また最近、検証としてVersion23.04を入れることになりました。定期的にインストールをしているのでほぼ慣れた感じでインストールはしていますが、中には作業をど忘れすることがあり、その一つがChromeブラウザのインストールになっています。

Ubuntuのインストール時の他の作業【参考】

uepon.hatenadiary.com

ブラウザならFirefoxもあるじゃんという方もいるとは思いますが、もうChrome拡張機能なしではもう生きていけない状況です。(どちらかといえばかなり生産性が悪くなる)。あとChromiumブラウザではGoogleアカウントの設定を設定できませんので注意です。

また、ブラウザのダウンロードを行うのに別のブラウザを起動するのもちょっとどうなのって感じなので、今回はコマンドラインのみを使用してインストールするメモという位置づけです。

続きを読む
/* -----codeの行番号----- */