Kurt Rossmann Laboratories

or Radiologic Image Research

 

Home
History
Research Summary
ROC Software
Publications
Contact Us

 

 

 

ROC Analysis Q&A

1.ROC解析ソフト導入編

Q1-1 シカゴ大学のホームページにアクセスしようとしたが,うまく接続できない.URLが間違っているのではないでしょうか

A1-1 ROC解析のソフトをダウンロードする場合のURLは;

<http://www-radiology.uchicago.edu/krl/toppage11.htm>

で間違いありません.www-radiologyで正しいです(www.radiologyではありません).ただ,このURLは大学のものですので,不定期にメンテナンスやバージョンアップのために接続を停止し,作業を行っています.特に週末は,システムがダウンしている場合が多いので,接続がうまく行かない場合には,2,3日してからもう一度挑戦してみてください.

Q1-2 シカゴ大学のサイトでダウンロードできるROC解析のソフトの種類と,それぞれの使い分けはどうなっているのですか?

A1-2 現在,ダウンロードできるソフト(書類)の一覧と,簡単なその使い分けを下に示します;

ROCKIT:統合型ROC解析ソフト.下記のROCFIT,LABROC1, CORROC2, CLABROC,INDROCの全ての作業をこのソフト単体で行う

LABMRMC:連続確信度法を用いたJackknife法のソフト

PlotROC.xls:Excelの書類で,ROCKIT,LABROC1,ROCFIT等の出力結果からROC曲線を描く

ROCFIT:評定確信度法(5カテゴリ法)のカーブフィッティングプログラム

LABROC1:連続確信度法のカーブフィッティングプログラム

CORROC2:2つのペアな評定確信度法(5カテゴリ法)の結果の間の統計的有意差検定を行う

CLABROC:2つの連続確信度法の結果の間の統計的有意差検定を行う

INDROC:2つのペアでない評定確信度法(5カテゴリ法)の結果の間の統計的有意差検定を行う

ROCPWRPC:CORROC2とCLABROCの出力結果の統計能力を推定する

*個々のソフトの詳細は,それぞれのソフトに添付のUsrsGuideを参照してください.

 

Q1-3 ROCKITで計算したけれども,ROC曲線が表示されません

A1-3 ROCKIT,ROCFIT,LABROC 1のいづれのソフトにもROC曲線を出力する機能はありません.ROC曲線を出力したい場合には,出力結果の後半部分にあるFPFを横軸データに,その横に出力されているTPFを縦軸データとして,適当なグラフソフト(Excel,デルタグラフ,カレイダグラフ等)に入力しなおし,グラフを作成してください.

 

Q1-4 ROCソフトはどれも最新のiMacやWindows98でも動作しますか?

A1-4 基本的には,そのソフトが作成された時点で,ポピュラーな機種には対応しています.したがって,一番新しいROCKITは,ほぼ全部の機種に対応していますが,ROCFIT,LABROC1となると,MacではG3以降の機種で,計算途中にハングアップする場合があります.現時点でROCKITの動作が確認されている最新の動作OSは,Windows XP および Mac OS-10.0です.

 

Q1-5 複数の観察者の実験結果を一度に計算・統計検定できるソフトはないのですか?

A1-5 Jackknife法を取り扱うLABMRMCがもっともこれに近いですが,完全にペアなデータセットに限られます(同じ観察者群で同じ試料セットの組み合わせを実験した場合).ROCKITでは,連続確信度法のデータであれば,最大5セットまで同じに計算することが可能です.しかし,統計検定は,その5セットの中から取り出した2つの組み合わせのすべてについて行われます.

 

Q1-6 ROCKITへの入力ファイルの作成方法がわかりません

A1-6 ROCKIT,ROCFIT,LABROC1の入力ファイルの作成法を覚えると,データの入力ミスが減少し,繰り返し計算も容易になります.もし,手入力で実行することができるのなら,最初の設定で入力ファイル作成を選択し,計算実行後に,任意のワープロで作成された入力ファイルを開いてみれば,入力ファイルのフォーマットが良く理解できます.入力ファイルはテキストファイルですので,ワープロソフト以外でも,MacであればSimple Text,Windowsであればノートパッドで,入力ファイルを作成することができます.

 

2.ROC解析実験計画編

Q2-1 ROC解析の実験計画で重要なことは何ですか?

A2-1 評価目的と信号および雑音の関係が適当であること.後で実験のやり直しをしなくて済むように,本実験を行う前の予備実験に十分な時間をとること.観察実験のスケジュールをあらかじめ決めておくこと.つまり,下準備が一番重要ということです.

 

Q2-2 視覚的に評価できるものは,すべてROCで評価できますか?

A2-2 ROC解析では,「信号+雑音」と「雑音のみ」の試料が必要です.したがって,バーガーファントムやハウレットチャート等の「信号+雑音」の試料だけでは,ROC解析を行うことはできません.

 

Q2-3 観察者を選ぶ際に,必要条件はありますか?

A2-3 実験に用いる信号の検出についての,経験・技術・能力が十分である必要があります.ただし,経験は年数だけではなく,読影した数で評価することが必要です.

 

Q2-4 試料枚数は何枚ぐらい必要ですか?

A2-4 ROC実験において,適当とされる試料の枚数は,試料の種類(臨床画像かファントム像か),読影の難易度,によって異なります.「信号+雑音」と「雑音のみ」の試料について得られた観察者のスコアが,適当な正規分布を示す良い条件の試料であれば,試料枚数は少なくても(Positive+Negative=30画像程度)良い結果が得られますが,一般的には,観察者が読影実験で疲労を覚えない程度で,できるだけ多い枚数(Positive+Negative=100~200画像程度)を用意したほうが,統計的に良い結果が得られます.

 

Q2-5 Positive像とNegative像の試料枚数は,同じ数にしなければいけませんか?

A2-5 Positive像とNegative像の試料枚数を同じにする必要はありません.Metz教授らが示したシュミレーション実験からは,PositiveとNegativeの比が1:40または,40:1までであれば,有意な差は生じないという結果が出ています.しかしながら,私個人の意見としては,1:2または2:1までの枚数比にした方が,観察者には混乱が生じにくいと思います.

 

Q2-6 試料を作成する場合の注意点は何ですか?

A2-6 ファントムを用いて試料を作成する場合,信号よりも雑音の作成に労力を費やすようにしましょう.アクリル板などの散乱体以外に,金属メッシュやスチールウールといった単純な雑音を効果的に利用すると,信号が読影しにくくなります.

 

Q2-7 ROC実験で,参考になる文献を教えてください.

A2-7 手前味噌ですが,昨年の日本放射線技術学会雑誌第4号に掲載された;

   「診断能の評価-ROC解析の実験方法」 白石 順二

を参照していただければ,ROC実験のだいたいのことが理解できると思います.また,実験について参考になる文献も掲載されています.

 

Q2-8 観察者は何人ぐらい必要ですか?

A2-8 前述の観察者としての条件を満たしていれば,観察者は多ければ多いほど良いです.シカゴ大学のリアルタイムROC解析では,80名以上の観察者による実験も報告されていますが,一般的には15~20名程度が適当な数だと思います.どうしても観察者を確保できない場合でも,最低5名は観察者を用意した方が良いと思います.

 

3.観察試料作成編

Q3-1 臨床画像を対象としたROC解析を行いたいのですが,どのように収集するのが一番効率的でしょうか?

A3-1 臨床画像を収集する場合には,専門医師の協力が不可欠です.まず,誰か信頼できる先生を味方につけます.そして,実験の目的と方法について十分に協議し,どの程度の(読影の難しさの)画像が必要かを検討します.次に,それらの具体的な判断基準を決めます(例えば,大きさ,コントラスト,病変の位置など).できれば,予備的に収集した画像の中から,判断基準によって分類される5段階評価のそれぞれの判断基準の代表的な画像に相当する画像をピックアップしておきます.画像の収集にあたっては,収集に協力してもらう医師にその判断基準を示し,収集の際にはすべての画像に医師の判断で5段階評価値をつけてもらうようにします.そうすれば,作業の途中の段階で,どのような症例が集まりつつあるかということが把握できます.また,この作業は,後々のデータ解析にも非常に役に立ちます.詳細は;白石順二, 土井邦雄, 桂川茂彦, 小松研一, 松井美楯, 他; 標準ディジタル画像データベースの構築, 日本放射線技術学会誌, 54(3), 439-445, (1998).を参照してください.

 

Q3-2 胸部ファントムを用いてROC解析の試料を作成したいのですが,信号には何が良いでしょうか?

A3-2 一番簡単で,よく用いられているのはX線フィルムを切り貼りしたものを人体ファントムに貼り付ける方法です.1枚のフィルム片だけでは辺縁が明瞭になってしまうので,複数枚を辺縁が重ならないように張り合わせて,辺縁をぼかすようにします.また,フィルムの濃度が信号強度に関係しますので,適当な濃度のフィルムを何種類か用意して,写り具合を確かめながら信号の強度を決定します.他では造影剤を混ぜ込んだ粘土や,パラフィンを溶かして好みの形に整形したものなどが用いられます.また,デジタル画像の場合ですと,任意のデジタル値で作成した信号像をオリジナル画像のデータに組み合わせるという方法も報告されています.

 

Q3-3 試料の大きさはどの程度が最適でしょうか?

A3-3 なるべくなら,実際の読影で用いられる画像のサイズを利用した方が良いですが,フィルム枚数が多くなる,観察範囲が大きくなりすぎて時間がかかる,シャウカステンのマスクが煩雑になる,等の問題が生じますので,例えば胸部の単純X線像の場合ですと,実際の画像を左右に2分割,または上下左右に4分割した画像を1つの試料として取り扱います.そうすれば,1枚の病変ありの胸部画像から4枚の試料(通常は1枚のPositive像と3枚のNegative像)が作成できます.ただし,こういった試料を用いる場合には,分割した4枚の画像の従属関係が判らないように観察者に画像を提示する必要があります.また,ビーズ玉やフィルム片などのファントム像で試料を作成する場合には,その実験目的が明らかであれば(例えば,増感紙-フィルムシステムの低コントラスト検出能の比較),試料は8cm12cm程度の大きさでも問題はありません.何れの場合も画像を拡大縮小してしまうと,別の要因が入ってきますので,原寸大のものをカットして用いることが前提となります.

 

Q3-4 DSAで動画(透視像)のROC解析をしたいのですが,どういった信号で,どのように試料を作成すれば良いでしょうか?

A3-4 動画を用いる場合でも,信号像と実験目的が一致していることが重要です.例えば,DSAの透視時の線量を下げた場合の検出能を比較評価するのであれば,実際に用いられるカテーテルでもっとも細いタイプのものを信号に用います.動画の場合は被写体の動きが検出能に影響を与えますので,固定したカテーテルを透視像で観察するのではなく,雑音となるファントム(アクリル板とか人体ファントムとか?)上でカテーテルを移動させて,その移動した距離や最終的に停止した点を検出してもらって,その結果を評価スコアに用いると面白いROC解析ができるかもしれません(まだ,誰もやっていない?).

 

Q3-5 CTとMRIの診断能を比較する場合には,どのように試料を作成(収集)すれば良いでしょうか?

A3-5 CTとMRIというように,異なる2つのモダリティ間の比較をROC解析で行う場合には,患者1人または1つの病変を1つの信号として取り扱う考え方が有用です.つまり,ある患者の病変について,CT検査のみとMRI検査のみのそれぞれで得られた確定診断が,CTとMRIのROC解析での評定スコアになります.この評定スコアは,読影医に病気である確率をつけてもらうなどして求めます.したがって,ある特定の病気の検出について,CTとMRIで比較を行う場合には,手術や他の手段でその病気が確定した患者のグループのデータがPositiveなデータで,そうでない患者のグループのデータがNegativeなデータということになります.この場合,撮影フィルムの枚数やスライス数は両者で異なりますが問題にはなりません.あくまで,患者1人を1つのデータと考えるようにします.

 

Q3-6 デジタル画像でCRTの性能評価用の試料を自分で作成しよう(Cプログラミング使用)と思うのですが,何か問題点はないでしょうか?

A3-6 フィルムで試料を作成する場合もそうですが,CRTの場合も,CRTの性能によって信号の見えやすさが変化しますので,作成する試料の信号の強度が,評価しようとするCRTの性能評価に適当であるかどうかを見極める必要があります.したがって,ピクセル値を変化させて信号の強度を変化させるのであれば,何種類かの信号強度の試料を試しに作成し,予備実験を行った上で,最終的な信号強度を決める必要があります.また,評価スコアが正規分布となるように信号強度も平均値を決めたら,その値を中心に強度値が正規分布で発生するランダム変数を用いて信号強度にばらつきをもたせると良いでしょう.

 

Q3-7 2つの信号像のグループに対して,1つの雑音像のグループの結果をそれぞれ組み合わせてROC解析を行うことは可能でしょうか?

A3-7 可能です.ただし,信号像のグループの「信号+雑音」の雑音の部分が,2つの信号像のグループおよび雑音像のグループと同等である必要があります.

 

Q3-8 ファントム画像で信号の位置をランダムに配置するのに何か良い方法はないでしょうか?

A3-8 配置させたい場所にあらかじめ番号を振付けて,エクセルなどで発生させたランダム変数を用いて,信号を置く場所を決定する方法があります.

 

4.実用編

Q4-1 MRIと超音波というように,まったく異なった2つのモダリティ間のROC解析はどのように行えば良いのでしょうか?

A4-1 検出しようとする信号(病変)が各患者について同じであれば,モダリティが違っていてもROC解析は可能です.また,信号の有無に対する観察者(医師)の反応が同じ目的を持っていることがさらに必要です.つまり,同じ乳がんの検出を行う場合でも,MRIでは腫瘤の有無を判定し,超音波では腫瘤の良悪性の鑑別の判定を行う,といったROC実験では,両者の比較をすることの意味がありません.モダリティごとに画像の枚数や撮影方向が違いますが,これは同じであれば,それに越したことはないですが,特に必要な条件ではありません.

 

Q4-2 多くの観察者の中で明らかに他と異なったROC曲線を示した観察者を排除する良い方法はあるでしょうか?

A4-2 非常に明確な,誰もが納得できる理由があれば,その観察者のデータを排除することが出来ます.例えば,読影実験の途中で体調が悪くなって,無理して続行したが,結局はそのまま入院してしまった,実験途中で陰性と陽性の得点のつけ方が逆になってしまったのに気がついたが,そのまま続行したetc.などです.つまり,原則として一旦実験を行った結果を,他と違う結果だからという理由で排除することはできませんし,してはいけません.そのように特異なデータを含む可能性が視覚評価には必ずありますので,それを考慮して,観察者の数を十分に確保して,そういった特異なデータがあっても統計的に問題となら無いような実験計画を立てることが必要です.さらに,実験の目的に応じて,熟練した読影医のみによるROC実験なのか,研修医も含んだ幅広い領域の読影医に対しての結果が必要なのか,等を考慮して,観察者を選択することも必要です.

 

Q4-3 複数の観察者と複数の条件下で行われた複数のROC曲線間の統計的有意差検定はどのように行えば良いでしょうか?

A4-3 現在,一般的には曲線下の面積AZを用いたt検定と,Jackknife法がROC曲線間の検定に用いられています.ここでは,最初にそれらの検定の意味について説明します.

t検定とJackknife法では根本的に,統計的検定における帰無仮説が異なります.同じ観察者間のAZに対して行われるt検定は,観察者間の変動だけを考慮していて,実験に用いた試料間の変動(母集団の分散)を考慮していません.したがって,このt検定で仮に統計的な有意差が生じたとしても,それはあくまで実験に使用した試料群についてのみ有効なデータであって,その実験結果を,一般論としてすぐに適応することはできません.それに対して,Jackknife法では観察者間の変動だけでなく,試料間の変動も考慮し,その母集団の分散を統計的検定の要因の中に加味していますので,Jackknife法で統計的に有意差がありと判定されれば,その結果は,一般論として他の施設においても通用すると見なせることになります.つまり,t検定の帰無仮説は「実験に使用した試料群について,一般的な観察者が読影を行った場合に,AZの平均値に統計的な有意差がある」であり,一方のJackknife法の帰無仮説は「一般的な試料群について,一般的な観察者が読影を行った場合に,AZの平均値に統計的な有意差がある」ということになります.

現在のところ,こういった検定に関するソフトウエアはROCKITとLABMRMCがあります.ROCKITは一人の観察者について,試料間の変動を考慮した統計的検定が可能で,LABMRMCは観察者間と試料間の両方の変動を考慮したJackknife法による統計的検定が可能です.評定実験法はROCKITは5段階評定と連続確信度法の両方に対応していて,LABMRMCは連続確信度法のみに対応しています.しかしながら,残念なことにLABMRMCは全く同じ観察者群で行われた場合にのみ適応が可能で,異なった観察者群間の統計的検定を行うことができません.そのため,異なった観察者群で行われたROC実験の観察者間および試料間の変動を考慮した統計的検定を実行することのできる現実的な方法やソフトウエアは現時点ではありません.こういった場合の,もっとも妥当な検定法は,分散の異なる2群間のt検定を行うことですが,前述のように,実験に用いた試料群に対してのみ有効という制約がつきます.ある意味では,こういった検定法の確立が,現在のROC解析関連でもっとも急務とされている課題といえます.

 

Q4-4 DSAにおけるI.I.の透視像といった動画に対してROC解析を行うことは可能でしょうか?

A4-4 可能です.ただし, I.I.のような動画を対象とする多くの場合は,検出の目的が,見えるか?見えないか?ではなく,どの程度見えるか?であり,判断基準が信号を検出する場合と異なります.そのため,実験計画をする段階で,信号の強さをある客観的な閾値(例えばカテーテルの太さ)でPositiveとNegativeのグループに2分しておく必要があります.そして,それぞれのグループを動画で表示した場合の観察者の反応を,見えやすさといった判断基準でスコアにします.この実験では閾値の設定が重要な要因になるので,何度も予備実験を行うか,もしくは実験終了後に閾値を変化させてカーブフィッティングを行うことが必要となります.

 

Q4-5 ROCKITで得られるAZといった結果の信頼区間はどうすればわかりますか? AZの値は小数第何位までを統計的解析に用いれば良いのでしょうか?

A4-5 AZの信頼区間はROCKITの出力ファイルに出力されています.下記出力例を参照してください.

 

=====================================================

Final Estimates of the Binormal ROC Parameters

=====================================================

 

Binormal Parameters and Area Under the Estimated ROC :

a = 1.2489

b = .9711

Area (Az) = .8149

Area (Wilc) = .8162

 

1: z(k) =  -1.284 -1.066 .019 .245 .403 .563 .644 .804 .968 1.132 1.217 1.671 1.886 2.179

 

Estimated Standard Errors and Correlation of these Values:

Std. Err. (a) = .3980

Std. Err. (b) = .2954

Corr(a,b) = .4885

Std. Err. (Az) = .0666

Std. Err.(Wilc)= .0684

 

Symmetric 95% Confidence Intervals

For a : ( .4688, 2.0291)

For b : ( .3921, 1.5501)

 

Asymmetric 95% Confidence Interval

For Az: ( .6581, .9169)

 

 

5.データ処理・統計処理編

Q5-1  ROC実験を参考書に従って行い,ROCKITを使って結果(Az)が出たのですが,どのように解析すれば良いのかがわかりません.

A5-1  ROC解析に限ったことではないのですが,まず,実験を計画する場合には,どのような結果が出るかを予想しておく必要があります.そして,実験から得られた結果が予想通りのものか,それとも反対の結果なのかをみるために,実験結果をよく眺めることから解析が始まります.よく眺めるということは,様々な角度から実験結果を検討するという作業と同じことです.つまり,全体の平均,観察者ごとの平均,モダリティごとの平均,試料別の平均など,色んな組み合わせでその結果の傾向を調べます.それで何らかの事実がわかった後に,それらを確証するために統計的有意差検定を行います.統計的有意差検定はあくまで一つのツールであり,実験結果に隠された事実をまず見つけることが解析の第一歩と考えるように心がけてください.

 

Q5-2 平均のROC曲線は,どのようにして求めれば良いのですか?

A5-2 平均のROC曲線を求める方法には2通りの方法があります.一つはアベレージ法と呼ばれる方法で,もう一つはプール法と呼ばれています.アベレージ法は,各観察者の各モダリティについてのROC曲線を個々に計算した後に,FPFごとのTPFの平均を,求めたいグループについて求めます.平均のROC曲線はこのFPFと平均のTPFをプロットすることで得られますし,この平均のROC曲線のAzは台形近似で求めることが可能です.しかし,ここで算出できるAzは個々の観察者(又はモダリティ)について求めたROC曲線のAzの平均から求めた値とほぼ同じになりますので,その値を利用する方が簡単です.プール法は,ROC曲線を計算する際に,平均を求めたいグループの評価スコアを全部まとめたものをカーブフィッティングプログラム(ROCKIT,LABROCなど)に入力し,平均のROC曲線を求める方法です.プール法で求めた平均のROC曲線は,アベレージ法で求めた平均のROC曲線よりも低い値を示すことがシミュレーション実験でわかっているので,通常はアベレージ法を用いるようにします.

 

Q5-3 なぜ結果を統計処理しないとROCとは言えないのですか?統計は苦手なのですが,統計処理を絶対しなくてはいけませんか?

A5-3  ROC解析を含めた視覚評価(Observer study)は,固有の解が期待できる物理評価と違って,観察者のグループや試料の難易度に強く依存します.ですから,できるだけ多くのデータを集めて,視覚評価から得られた結果が統計的に真実(truth)に近いかどうかを証明する必要があります.例えば,4名の観察者のうち3名がAよりもBのシステムの方が良いと判断しても,それは真実を反映しているのかどうかは不確かですが,10名のうちの7名が良いと判断したのであれば,だいたい,その結果は真実に近いということがわかります.こういった観察者の数(標本の数)も考慮して有意な差があるかどうかを判定するのが統計処理です.つまり,いくらAよりもBが良いという結果が出ていても,統計的にその事実が証明されなければ,その実験の結果は意味をもたないということになります.

 

Q5-4 一般的な統計処理にはどんな種類があり、どのような時にそれを用いればよいのですか?また,統計を勉強しようと思うのですが,一般的な統計の教科書の内容で良いのですか?ROC解析用に何か特別なものがありますか?

A5-4 統計処理と一言で言っても様々な種類がありますが,大きく分けると,推定,検定,回帰,相関ということになります.ROC解析では,カーブフィッティングの中で観察者から得られた評定結果の正規分布の形を推定し,カーブフィッティングの結果得られたROC曲線間の差を求めるのに検定を行います.その他にも,試料の様々な物理データの特性を求めるために,いくつかのパラメータについての相関や回帰を求める場合があります.実際のROC実験の場合にはROC曲線間の統計的有意差を求めるために,t検定,信頼区間,分散分析といった統計処理を覚えることが必要になりますが,統計処理の概念を良く知らずに,ただ数値だけを当てはめて統計処理をしてしまうと,とんでもない間違いをする場合がありますので,できれば,統計処理全般について,まず勉強することが望ましいです.統計処理はROC解析に限らず,科学実験を行う場合には必ず必要になりますし,相関・回帰といったテクニックを自分のものにすれば,これまで以上にデータ解析の中身が充実することと思われます.

ROC解析用の特別な統計処理は,文献で紹介されているだけで,参考書として書店で求めることは出来ません.しかし,ほとんどの基本的な統計処理は一般的な統計処理と同様で,書店で多く見かける統計処理の本であれば,その内容を理解することができます.特に英語の文献はただでさえ難しい統計処理の数式が英語で説明されていますので,日本語の参考書を横において眺めることをお勧めします.また,これから統計を始めようとする方でも,最近は初学者向けのわかりやすい統計処理の入門書がいくつも出版されていますので,書店で眺めて,自分気にいった本を入手すればよいと思います. 

 

(文責: 白石 順二@シカゴ大)


 

 

 

Home | History | Research Summary | ROC Software | Publications | Contact Us

This site was last updated 01/12/06