研究データを取得・収集および保存・共有する
研究データの取得・収集・保存・解析 〈 学習編 〉
研究データの取得・収集、保存・共有
DCC(Digital Curation Centre;英)のDMPテンプレート(一部)
大項目 | 詳細 | 備考 |
---|---|---|
データ収集 | どのようなデータを収集・生成するのか | データの種別、フォーマット、容量etc. |
フォーマットやソフトウェアのデータ共有・長期アクセスへの適性 | ||
再利用できる既存のデータの有無 | ||
どのようにデータを収集・生成するのか | 用いる標準や方法論 | |
フォルダやファイルの構造化の方法 | ||
バージョン管理の方法 | ||
保管とバックアップ | 研究期間中のデータの保管・ バックアップ方法 | 充分なストレージを有しているか |
付加サービスの利用に必要な料金を使途に含める必要があるか | ||
データのバックアップ方法 | ||
障害発生時のデータの復元方法 | ||
アクセス制限やセキュリティ確保の管理 | ||
選定と保存 | どのデータを保持・共有・保存すべきか | 契約、法律、規制等の理由で保持あるいは破棄すべきデータ |
その他の保存するデータの決定方法 | ||
データの保持・保存の期間 | ||
データセットの長期保存計画の内容 | リポジトリやアーカイブ等のデータの保存場所 |
- 内閣府研究データ基盤整備と国際展開ワーキング・グループ(2019, 10)「研究データ基盤整備と国際展開ワーキング・グループ報告書––研究データ基盤整備と国際展開に関する戦略––」, p.20-24.
- この内閣府の資料は、英国のDCC(Digital Curation Centre)のDMPプレートを参考に作られているため、合わせて参照のこと。
研究データの取得・収集
どのようなデータを収集・生成するのか
- データの種別、フォーマット、容量 etc.
- フォーマットやソフトウェアのデータ共有・長期アクセスへの適性
- 再利用できる既存のデータの有無
データの種別は概ね下記のいずれかに分類
集計データ、臨床試験データ、編集データ、符号化データ、実験データ、地理空間データ、測定・評価データ、観測データ、記録データ、シミュレーションデータ、調査データ
- 「JPCOARスキーマガイドライン」に基づく研究データのdataset区分に関しては、Cf., オープンアクセスリポジトリ推進協会(2019, 11, 27)「資源タイプ語彙別表」. https://schema.irdb.nii.ac.jp/ja/2.0/resource_type_vocabulary
どのようにデータを収集・生成するのか
- 用いる標準や方法論
- フォルダやファイルの構造化の方法
- バージョン管理の方法
• 関係する法令、学内規則、研究倫理その他の規範の遵守
• FAIR原則に則りデータ来歴を明らかにした上で保存
• 保存期間終了後には適切に分類(保存する研究データ、破棄する研究データなど)・保存し、適切な処理が必要
- 吉田幸苗et al.(2021, 2, 10)「研究データ管理サービスの設計と実践第3章第2版」『教材「研究データ管理サービスの設計と実践」』, p.23. https://jpcoar.repo.nii.ac.jp/records/607
フォルダ構造の決定(組織化)
研究が進むに従って、数多くのデータ(ファイル)が生成されます。一貫性のある適切なルールを設けてフォルダ構造を組織化することで、効率的なアクセスが可能になり、効率的に研究を進めることにも繋がります。
- フォルダ構造の組織化とは
- データファイルをフォルダに格納する際のルールを定めること
- フォルダ名等でフォルダ間の関係を明確にしておくこと
- 定めたルールに従ったフォルダ名にすること
- メリット
- 一定のルールの下でファイルが保存され、場所の特定と閲覧が容易
- 作成者だけでなく他の人もファイルを容易に区別・発見することが可能
- 誤った上書き、削除の防止
- フォルダ名等でバージョン違いを明確に区別することが可能
- 別のプラットフォームに移行しても文脈を維持することが可能
- フォルダ構造に関するルールの例
- 研究プロジェクトごとにフォルダを作成し、フォルダ名には日付をいれる
- 実験や調査ごと、またはメンバーそれぞれでフォルダを作成する
- フォルダの下にはそのフォルダの中身を説明する文書を作成しおいておく
- 実験の場合は、実験のフォルダの下に、生データ、加エデータ、論文等のフォルダをそれぞれ作成する
- 様々な実験や調査をする場合には、実験や調査の違いが分かるような情報をフォルダ名に含める
- 深すぎる構造にしない
- ファイルの命名法も参考にする(ファイルの命名法に関しては次で説明)
適切なフォルダ構造は、研究内容によっても異なります。
研究プロジェクトごとに、相談して一定のルールを決めましょう。
- 九州大学データ駆動イノベーション推進本部研究データ管理支援部門, 九州大学附属図書館図書館DX支援室(2023, 08)「はじめよう、研究データ管理」, 3_研究データの整理法_202407改訂, p.3. https://doi.org/10.15017/6796147
ファイルの命名法
ファイルの命名は、研究データの出所を保証したり、その後の利用をする際に間違ったデータを使用するのを避けるためにも重要です。
命名時は、主に以下を考慮しましょう。
- ファイル名の構成
- 保存先システムのファイル名の制約を考慮する
- &*%$£]{!@などOSで特別な意味を持つ場合がある特殊記号は用いない
- ピリオド、スペースの代わりにアンダーバーを用いる
- ファイル名は短く示唆的なものにする
- ファイル名の適切な長さは約25文字程度で内容がわかるものにする
- 保存先を変更する際に混乱が生じるような一般的なファイル名は使用しない
(例:sheet1.xlsx) - 実験機器等が出力するファイル名をそのまま利用しない。
- ファイル名を付ける際に考慮すべき要素
- プロジェクト番号
- 作成者名、データに関与した研究チーム、部局の名前
- データ内容の記述
- データ作成日、公開日
- バージョン番号
- ファイル名の例
[作成者]_[作成方法]_[キーワード]_[YYYYMMDD]_[バージョン].拡張子
- 文脈の保存
- 保存場所に関係なくデータを識別できるよう内容情報をできるだけ含める
- ファイルの拡張子は、ファイルが作成された物理的環境を正確に示すものを用いる例).por,.xls,.xlsx
- 一貫性のある命名
- 命名ルールに従い、常に同じ情報(日付や時間)を同じ順番で含む
- 日付を用いる場合、フォーマットを統ーする。
例)20221201(yyyymmdd)
- 九州大学データ駆動イノベーション推進本部研究データ管理支援部門, 九州大学附属図書館図書館DX支援室(2023, 08)「はじめよう、研究データ管理」, 3_研究データの整理法_202407改訂, p.3. https://doi.org/10.15017/6796147
バージョン管理
- 多くの場合、研究者は独自の方法を利用し、データセットを始めとするファイルのさまざまなバージョンを識別。
- 適切に設計されたバージョン管理システムを利用すれば、ファイルに加えられた変更をバージョン番号、タイムスタンプ、変更箇所の説明とともに記録できる。変更は容易に比較することができ、必要に応じて復元することも可能。
- バージョン管理システムの一般的な例…Git
- 九州大学データ駆動イノベーション推進本部研究データ管理支援部門, 九州大学附属図書館図書館DX支援室(2023, 08)「はじめよう、研究データ管理」, 4_研究データの保存_202407改訂, p.12.
https://doi.org/10.15017/6796147
ファイルフォーマット
論文を執筆するまでの短期的な視点ではなく、長期的に研究データが利用できる状態を確保するためには、フォーマットによる特徴の違いを考慮し、適切なフォーマットを選択する必要があります。
- 推奨されるファイルフォーマット
- 特定の商用ソフトウェアから独立したフォーマット
- 仕様が国際標準化されているフォーマット
- 広く普及しているフォーマット
- フォーマット変換のリスク
- フォーマットを変換することにより、ファイル内部に記録されたメタデータや画像の品質、文章構造などの情報を失う可能性大。
- テキストとバイナリ
- テキストファイルは環境に依存せず開くことができ、人間可読性高。
- バイナリファイルはよりリッチな情報を包埋しているが、人間可読性低。
- 九州大学データ駆動イノベーション推進本部研究データ管理支援部門, 九州大学附属図書館図書館DX支援室(2023, 08)「はじめよう、研究データ管理」, 4_研究データの保存_202407改訂, p.12.
https://doi.org/10.15017/6796147
研究データの保存
研究期間中のデータの保管・バックアップ方法
- 充分なストレージを有しているか
- 付加サービスの利用に必要な料金を使途に含める必要があるか
- データのバックアップ方法
- 障害発生時のデータの復元方法
どのデータを保持・保存すべきか
- 契約、法律、規制等の理由で保持あるいは破棄すべきデータ
- その他の保存するデータの決定方法
- データの保持・保存の期間
アクセス制限やセキュリティ確保の管理
ストレージ選定における留意点
- 情報セキュリティポリシーに適応したシステム・ストレージを選定
- 求められる制限やアカウント管理のレベルに応じたアクセス選定
- 個人でインフラ整備の必要があれば、関連部門と相談のうえセキュリティ強化されたストレージを選定
- 西薗由依et al.(2020, 10, 29)「研究者のための研究データマネジメント研究前所属機関のインフラ活用」『教材「研究者のための研究データマネジメント」』, p.6.
https://jpcoar.repo.nii.ac.jp/records/294
データの保存場所
容量や費用、簡便さに加え、信頼性や安全性など各保存場所の特徴を考慮し、保存先を選択しましょう。
代表的な4つの保存場所
- デスクトップ・モバイルPC
簡便な保存先ではあるが、ハードウェアが冗長化されておらず、障害によりファイルを失う可能性大。研究資料のマスターコピーを保存する場所としては不適切。
- 外部記憶デバイス
CDやDVDはサイズが十分ではなく、書き込みエラーヘの対処や確認が必須。USBハードディスクやUSBメモリ、SDカードなどは、安価で大容量化してきたが、PC・ラップトップと同様の問題あり。ポータビリティに優れる反面、紛失や盗難などのセキュリティリスク大。
- クラウドストレージ(例:OneDrive,Dropbox)
インターネット上のディスクスペースを利用できるサービス。一定容量までは無料で利用できるものもあるが、機関のセキュリティポリシーやガイドラインに適合するものを選択すべき。
*オンラインストレージサービスの比較:
https://en.wikipedia.org/wiki/Comparison_of_online_backup_services
- ネットワークドライブ(例:研究室のNAS)
LANなどのネットワーク経由で接続できる他のコンピュータのディスクスペース。安定的に運用される所属機関のシステム管理部門が提供するものを利用するのが理想。
外部のクラウドストレージを利用する際は、機関のセキュリティポリシーに合致するかを事前に確認しましょう。所属する研究機関が提供するネットワークドライブ、クラウドストレージがあれば、安心して研究データを保存できます。
クラウドストレージやネットワークドライブ等を利用して複数の環境で作業する際には、確実にファイルを同期させるようにしましょう。
研究データのバックアップ
不慮のトラブルで研究データを失った際にも、バックアップデータがあれば、トラブルの影響を最小限に抑えることができます。
定期的にバックアップを取りましょう。
- バックアップの場所
- ネットワークドライブ、クラウドストレージなどの選択肢から、研究内容に応じて適切なものを選択
- 情報セキュリティや災害リスクも考慮
- 絶対に漏洩してはいけないデータは、オンライン上ではなく、ローカルのコンピュータやストレージに保管
- 複数のバックアップを取る
- 機密性のレベル等について各機関が提供する情報を確認する
- バックアップの方法
- 手動ではなく、バックアップソフトウェアなどを利用し、定期的なバックァップを取得する
- 定期的にバックアップされていることを確認。
- バックアップからリストアできることを確認。
- ディスク容量やバックアップに必要な時間を勘案し、フルバックアップ、増分・差分バックアップから適切な方法を選択する
- ファイルの更新頻度などから、適切なバックアップ頻度を設定。
例) 日次:差分バックアップ、月次:フルバックアップ
- ファイルの更新頻度などから、適切なバックアップ頻度を設定。
- 災害等を考慮し、複数の場所にバックアップを保管しましょう。
- 最低でも3つのコピーがあることが推奨されています。
- 「オリジナル(original)」:最初のコピー、作業用のデータセットと関連ファイル。通常、研究者が主に使用するコンピュータに保管。
- 「ニア(near)」:オリジナルの近くになければならないが、物理的な場所が同じでないことが理想的。このコピーは自動バックアップソフトか手動のどちらかで更新。多くの場合、ニア・コピーは外部ハードドライブや研究者の属する施設内の共有ファイルサーバに保管。
- 「ファー(far)」:オリジナル・コピーからもニア・コピーからも物理的な場所が遠い。災害の脅威が異なる場所に置くのが理想。
セキュリティ対策
キュリティポリシーに沿った研究活動や環境を整備することで、トラブルを回避し、総合的には円滑な研究活動に繋がります。
- 物理的なセキュリティ対策
- 離席する際のコンピュータをロック
- 部屋の施錠
- モバイルPCを放置しない
- USBメモリ等を紛失しないための対処
- PC上でのセキュリティ対策
- アンチウィルスソフトウェア/ファイアウォールの導入
- ソフトウエアやOSのアップデート
- 適切な強度のパスワードや認証方法の利用
- ファイルやハードディスク、USBメモリ等の暗号化
研究データの共有

研究データ共有 非公開共有 自然科学分野
大阪大学コアファシリティ機構が推進する測定データの集約・管理を例に

実践的な教材の整備・展開の具体例(実験データ)





研究データ共有 公開共有 人文学・社会科学分野
日本学術振興会『人文学・社会科学におけるデータ共有のための手引き』

- 「自然科学と同様,人文学・社会科学においても,研究結果の根拠となるデータを研究者のあいだで共有できるようにすることは,研究者コミュニティにおける相互批判と研究の発展にとって不可欠のものです。」(p.3)
- 「管理対象となるデータには数量的データの他にもさまざまな種類のデータや資料,またいくつもの媒体手段(復元・再生手段の指定を含む)が存在します。」(p.9)
- 「データ作成の有用性は人文学においても同様です。研究資料を整理・分析するにあたり研究している時点での効率や気づきの可能性を高めてくれるだけでなく,再利用しやすい形で作成しておけば,将来の自分の研究を発展させるにあたって有効に働いてくれます。」(p.4)
- 「人文学においては,文化的な活動を記録したデータであれば,なんであれ研究対象となり得るため,データのフォーマットとしてはあらゆるものを想定する必要があります。」(p.18)
実践的な教材の整備・展開の具体例(実験データ)
人文学・社会科学におけるデータ共有の例
人文学・社会科学総合データカタログ

人文学オープンデータ共同利用センター

実践的な教材の整備・展開の具体例(人文学データ)
人文学研究者の多くが一次資料の代替となる高精細な画像を用いた分析を求めている。
⇒画像および動画の相互運用を推進する国際的な枠組みであるIIIF(International Image Interoperability Framework)に着目。
※IIIF画像を用いたキュレーションや教育への応用、ならびに機械学習のためのアノテーションデータ付与機能などの開発が盛んに行われている。



