ふと、普段働いているところのイベントをなんとなく知りたいと思いました。ホームページには一覧が公開されていました。
この自治体です。
ただ、情報の共有という観点からするとちょっとどうよというような内容のフォーマット。
オープン化を進めるならRSS
とかXML
とかCSV
で共有してくれてもいいじゃないの?とか思ったりしなかったり。つまりHTML
ファイルでしか公開がされていないという不満です。入力データの形式は揃っていそうなので、入力側にはCMSが入っているんだろうな~と推測していますが、なんとなくデータの設計も微妙というか詰めきれていないような感じなんですよね。
というのも、内容を見てみると、「日付、曜日、URL、イベント名、ジャンル」という形式。ただ、せっかくのイベント情報を公開しているのにどこで行われいるのかわかるフィールドがないとかいうのは気になります。エリアが広いため、開催地が一箇所ではないこともあるからこんな感じにしたのかなと推測しましたけど、場所を軸にして検索ができないのはちょっと残念かな~。
せっかくの情報もこれだと使い道がない!俺がなんとかする!とかいう高尚な考えは持っていないですけど、うまく使えればもっと助かる人もいるんじゃないかなと思います。
今回はPython
のBeautifulSoup
とrequests
のライブラリを使用してこのHTMLファイルをスクレイピングしてCSVファイルにする練習をするという内容を書いてみようかなと思います。