先のブログについて津田先生からコメントをいただいたと聞きました。良いことだと思います。日本には議論の文化がなく、一方的に演説するのみ、というパターンが多かったですから。日本の学術誌の中にはレターすら存在しない、受け付けてくれないレベルのものまであるのですから、いまだに。
津田先生(ら)が当ブログをお読みになっていただいているようなので、こちらでのコメントにします。他の方のご意見についてはぼくはノーコメントです。
(津田先生回答)スクリーニングのバイアス(一般にはスクリーニング効果と呼ばれています、今回の問題では、一部では過剰診断によるバイアスとも呼ばれていますが)の影響が定量的に示されている論文を、ぜひご教示ください。すなわち、20-50 倍の影響の推定値の上昇をカバーしてしまうような論文です。そうでないと EBM的な意見ではありませんね。以下の3論文などは、チェルノブイリ周辺で行われた、非曝露集団もしくは比較的低汚染地域での甲状腺がんエコー検診の結果です。論文の eAppendix(http://links.lww.com/EDE/A968)の eTable1 に も示しています。これらの論文の対象者には甲状腺エコーによるスクリーニングがおこなわれていますので、これらの結果にはスクリーニング効果も含まれてい ます。非曝露あるいは比較的低曝露の地域でのスクリーニング結果を示す論文が他にありましたらご教示いただければ幸いです。また、他のがんを含めて、20-50 倍というような大きなスクリーニング効果が示された論文をご教示賜れば幸いです。
(コメント)はい、これはぼくの論考の一番弱いところで、20-50という数字の大きさそのものを克服できる前例を知りません。なにしろ一般的にスクリーニングがもめている領域、乳がんとか前立腺がんとかでは両者の違いは「微妙」であり、故にもめているのですから。しかし、甲状腺がんスクリーニングがそのようにもめている領域「ですらない」ために、このようなプラクティスが「スクリーニングをしない群」との違いを検討するデータが、他のがんに比べて少ないのは当然だと思います。
しかし、文献21の比較対照がスクリーニングをしないincidenceであり、福島のそれが全例調査であるスクリーニング(prevalence)である以上、そこにスクリーニングのバイアスがない、と考えるのもまた無理筋だとは思います。あ、ぼくは疫学業界の人間ではないのでどのへんが一般的でどのへんが一般的でない業界用語なのかは存じませんが、いずれにしてもscreening biasというタームそのものは存在します。また、言及されている韓国の「15倍」という数字を考えても、なぜ15ならよくて、20-50ならダメなのか、そのへんの線引の根拠は分かりません。
超音波に限らず画像検査は「ある」と思ってさがすのと、ルーチンで検査をするのでは探し方、見つけ方が異なるようにも思いますが、僕自身は甲状腺の超音波の素人なのでどのくらいの差がつくのかは分かりません。ただ、福島では調べる者も調べられる者も一所懸命になって探索したであろうことは想像します。
EBM的という用語はぼくが知るかぎりEBMにおける一般的な用語ではないと思いますが、absence of evidence is not the evidence of absenceと言われるように、ぼくのバイアスの懸念は「バイアスがない」という反論ではなく、「これがバイアスであると示すに足る前例がない」という反論になっています。水掛け論ですね。もう一度確認すると、
20-50倍という数字にバイアスが入っている可能性は(inferenceとしては)高い。
ただし、20-50を全てバイアスとして片付けるには前例(エビデンス)に乏しい。
といったところでしょうか。もちろん、ぼくらはサイエンスを議論しているのでお役人ではないのですから、「前例がないから間違っている」と結論づけてはいけないのは言うまでもありません。EBM至上主義(evidence biased medicine)もまた問題ってことで、結局「なんとか」至上主義は全て非科学的な態度ってことですね。
あと、僕の感覚でいうと80年代の超音波と21世紀の超音波は「全く別物」と思いますが、これは個人の「感じ方の違い」なので、なかなか難しいですね。https://www.hitachi-aloka.co.jp/images/library/technology12.pdf
(津田先生回答)
有意差がないことと影響がないこととは異 なります。統計的有意差の有無は大きな問題ではありません。これは疫学理論のテキスト(『Modern Epidemiology』)や国際医学誌編集者会議 ICMJE でも statistics(統計学)の中で明確に警告が発せられています。
http://www.icmje.org/recommendations/browse/manuscript-preparation/preparing-for-submission.html
すでに書きましたように測定年の異なりを補正すれば、よりはっきりと地域の違いが見えてきます。
(ネットで流布するこのような疫学入門の必須項目もご存じない方々の指摘のお陰で、私は入門テキストを作るくらいの説明を打ち込むことができました。のちのち、テキストを作りやすくなります。ありがとうございました。)
(コメント)たしかに統計的有意差「だけ」で議論するのは危険です。ご指摘のRothmanのなかでも、Hill emphasized that causal inferences cannot be based on a set of rules, condemned emphasis on statistical significance testing, and recognized the importance of many other factors in decision making. とあります。ピーチ、ピーチ(p value)とそれだけで決めつけんな、てことですね。
で、The significance test refers only to the superpopulation, not the observed groups. To say that the difference is not statistically significant means only that one cannot reject the null hypothesis that the superpopulation groups are the same; it does not imply that two observed groups are the same. とも書いています。Rothmanでは統計的有意差だけが問題ではない、とは述べていますが、「統計的有意差が問題ではない」とか「大きな問題ではない」とは書いていないです。統計的有意差がないために、地域差の帰無仮説は否定できない(少なくとも統計学的には)ことは意味します。有意差がないことと影響がないことは同義ではありませんが、有意差がないから、影響があるとも結論付けられないのは当然です。そもそも、「キモ」のexternal comparisonでは統計的有意差を根拠(の一つ)にされているわけですから、ここで統計解析を過小評価するのはダブルスタンダードということになります。
Rothmanは科学論において非常に(ぼくの)肝に落ちる議論をなさっていてとても勉強になります。特に(津田先生もよくやっている)「実験医学の優位性とか科学性に対する鋭い批判」は、そのとおりだと思います。他方、ヒューム以来の「科学的証明」に関する懐疑論とも誠実に取っ組み合っており、科学における「証明」というのがいかに不可能に近いか(疫学を含め)、impossibility of scientific proof、も誠実に言及しているはずです。我々にできることは、実験医学含め、「証明」というよりdegree of certaintyに対する「近接」なのでしょう。
あと、ぼくがオープンにしなかったメールの文章も(なぜか)流れています。そこで操作変数(IV)について言及がありますが、ITTに見られるnull towards nullを根拠にIVの妥当性を主張されています。しかし、それは操作変数(地域)が曝露の代替として用いられる妥当性が高い場合には、という条件付きだと思います。両者に関連性が小さければ、もしくは他の影響が充分に大きければ、別の要因(地域以外の)曝露が結果に影響を与える可能性も十分にあります。また、ぼくが散見するところ、この点はメディアにコメントした他の疫学者のクリティークの根拠になっていると思います。もっとも、internal comparisonにおいては地域差がでなかったので、この議論はあまりこだわらなくてもよいのかもしれません。
以上、「疫学入門の必須項目もご存じない」者からのコメントでした。
コメント
コメントフィードを購読すればディスカッションを追いかけることができます。