Bash on Ubuntu on Windowsをインストールしてみてtar -xfで解凍すると黒画面でアンダーバーからまったく先行きが見えなかったので、tar -xvf(途中経過がわかるよう)で解凍してみた。途中経過はわかったのだけれど、結論からいうと失敗。jsonフォルダとxmlフォルダができて

jsonフォルダには2,528,933個のファイル、xmlフォルダには1,272,121個のファイル。

xmlファイルは途中からopenに失敗していたので仕方ないかな…。解凍に8時間くらいかかった。jsonxmlのフォルダが入っていることがわかった。↓をみるとjsonの件数はこれでよいっぽい。” ~2.6 million in the 2016 file” あとはxmlか…。もう一度しても失敗しそう。ファイルサイズの問題か、それとも時間の関係で途中でPCが止まってしまったのか。xmlはすてて、jsonだけで何かするのも、何かを数えるのには大きすぎそう。jsonデータをMySQLに入れて、SQLで調査したらよいかな…。

orcid.org

 

追記:ファイルサイズが大きすぎた様子。230GBのHDDがいっぱいになっていた。