e-Gov 法令ケーススタディ:法令XMLをフラット化してみる

前回記事の続きですが、e-Gov 法令XMLを xoBlos のXMLフラット化機能にかけてみました。

出典:e-Gov 法令検索 XML一括ダウンロード(https://elaws.e-gov.go.jp/download/

「e-Gov 法令検索」からダウンロードすると、法令データは以下の形式のフォルダ、ファイル構成となっています。

(2021年8月12日時点のダウンロードで、9233個の法令)

all_law_list.csv … 書誌リスト(法令一覧リスト)

(以下に各法令IDごとのサブフォルダ)

[105DF0000000337_20150801_000000000000000] [106DF0000000065_20150801_000000000000000] [108DF0000000054_20150801_000000000000000]

[503RJNJ14023000_20210714_000000000000000]

各法令ごとのサブフォルダの下には、法令IDがファイル名に付いたXMLファイルが必ず1個あります。

[105DF0000000337_20150801_000000000000000]         105DF0000000337_20150801_000000000000000.xml

ファイルリストを作成する

次の記事のように、「外部アプリの実行」手順で、filelist.txt のような名前のファイルリストを作成します。拡張子が .xml のファイルをリスト化します。

Windows:サブフォルダの下も、すべてのフォルダ階層のファイルリストを作成する https://xoblos.hatenablog.jp/entry/2017/08/13/101515

作成したファイルリストでは、ファイル名はフルパスとなります。

C:\*****\*****\105DF0000000337_20150801_000000000000000\105DF0000000337_20150801_000000000000000.xml

(注)ファイルリストの作成機能は、この記事の時点では xoBlos にありませんので、「外部アプリの実行」手順を使っています(次期製品リリースには含まれる予定)。

ファイルリストを基に、繰り返し実行手順を設定する

f:id:xoblos:20210927080015p:plain

[新しい手順]-[抽出データを作成する]-[XMLファイルから] メニューを選び、「変換(XML→抽出データ)」手順で設定します。

上図の例では、出力ファイル名は入力ファイル名の拡張子を .xml2 にした名前になります。"2" の箇所を ".xml" に指定すれば、拡張子が .xml.xml になります。出力ファイルは、入力ファイルと同じフォルダに出力されます。

全ファイルをフラットなXML形式にする

上記の繰り返し実行手順で、全法令XMLファイルが、xoBlos 形式のフラットなXML形式になります。

【xoBlos ビューアーでの表示例:明治十九年勅令第五十一号】

f:id:xoblos:20210927084322p:plain