手島健介
私家版(常に改訂中)、主に私の講義の受講者、指導院生向け
だいたい内容(回帰結果)を私の前でプレゼンしたことがあって、内容についてゴーサインが出ていてあとは体裁を整えるという段階におけるチェックリストという位置づけです。ですので、たとえば、「Stataの個々の回帰のアウトプット表示画面をそのまま貼りつけてはいけない」と言ったそれ以前の問題であることや、内容面に関するチェックに関することはカバーされていません。
以上3つの具体例は
https://drive.google.com/file/d/1O6So51-mLXufEf6lMZiGyuiHRUn661M9/view
の10ページの回帰式とその直後の段落参照
[ ] 回帰式で使っている変数名と回帰表に使っている変数名は整合的か。
例:回帰式ではNear*Postと書かれている変数が回帰表ではTreatmentAfterやらDidやらになっていないか。
[ ] 同じ変数は同じ表記にされているか。
例:殺人率という同じ変数を表すのに異なる回帰表でhom_rate, hom, homicideなど異なった表記を使っていないか。
[ ] 回帰表に表示する変数名は読者にとって意味が通るものになっているか。統計分析パッケージで自分が使っている変数名をそのまま使っていないか(統計分析パッケージの変数ラベル機能を使っておく)
例:“gr_numtxf20_3Xpost_ver5”といった変数名になっていないか。
[ ] 分析で使った変数はコントロール変数も含め定義を(必要によってはappendixにでも)書いているか。
例:ruralという変数があったとしてそれはどの地域単位でどのように定義されているのか書かれているか。
[ ] 回帰表を最初に説明する際に、どのように読むのかを読者に説明しているか。main coefficient of interestの数字を書き、それが何を意味するかを書かれているか。(ただし、結果の説明が増えるにつれ似たような分析の説明はだんだん省略していって構わない)。
(最初に説明するときに)”表3は回帰結果を示していて仮説と整合的な結果が得られている。”だけ書かれても表のどこを読めばそうなっているかは読者にわからない。ただし、2回目以降は)”表4は被説明変数をxxにした時の回帰結果を示していて表3と同様の結果が得られている。”と書くのは構わない。
具体例は、上記リンクの論文の10ページ最後の段落から11ページにかけてを参照。
Our preferred specification is the most stringent one, Column (4), with hospital-year effects. These estimates indicate that the share of low-birthweight births mothers rose by 0.048 (i.e. 4.8percentage points) and birthweight declined by 38.5 g on average for mothers living in a locality within 2 miles of a battery-recycling plant relative to mothers living in a locality 2–4 miles away who gave birth in the same hospital in the same year.
と、係数の値を出してそれが何を意味するのかを明示的に書いている。
[ ] 回帰表で係数が0.000 標準誤差が(0.000)となっているような結果で、当該説明変数のスケールの問題でそれが起きていないかどうかを確認したか(たいていは人口などそのまま使うとスケールが大きい変数を使っていて係数が人口1人増えたときのyの増分というようになってすごく小さくなっているので、例えば100万で割って係数を100万倍にして、100万人増えた時のyの増分と解釈するようにする。あるいは説明変数のlogを取る)。