データの改ざんをしない、そして研究成果に再現性を担保する、ということは科学者の最低限の責務です。
そして研究室で積み重ねてきた財産を次に引き継いでいくことは研究室を継続的に高いレベルで運営していくうえで極めて重要です。
基礎研究の現場では研究のプロトコールや成果を研究ノートにまとめていくという話をよく聞きますが、疫学研究、データサイエンスの世界ではどのような形でそれを担保しかつ効率の良い形で運営していくのが望ましいのでしょうか。
これまで一つの論文のテーマについて二人以上で統計解析の再現性を確認するなどはしてきましたが、最終的な統計ソフトのコードに至るまでは紆余曲折で、そのたびそのたびに保存データが増えていくような状況でした。
論文を仕上げてから半年後くらいにコードを見直すと、恥ずかしながらどうやってそのコードに至ったのかわからなくなることもあったりします。
最近我々の研究室ではGithubというシステムを使って研究チーム内でコードをシェアして、基礎研究の”研究ノート”に代わるシステムを作ることにしてみました。
このシステムでは変更履歴を残すたびにコメントを入れることができるので、過去の履歴を振り返ったときにどういう思考でそのような変更を加えたのか見えてきます。さらに、Collaborateという形でチーム内のメンバーにコード変更の権限を与えることもできます。様々な統計ソフトのコードに対応できますし、本当に便利なシステムですね。
今後使いながらさらに利便性の高いものにしていければ、と思います。