ゼミの彷徨: 疾患データベースの問題点

2017年2月時点で医学中央雑誌から子宮筋腫，子宮体癌，子宮内膜症，子宮頸がん，卵巣腫瘍の5疾患をキーワードにして検索した結果は下表の通りでした。ただし，原著と症例に限定しています。

子宮筋腫    2049
子宮体癌    1521
子宮内膜症    1562
子宮頸がん    1500
卵巣腫瘍    4412
合計    11044

しかし，よく考えてみると，子宮筋腫で検索した論文と子宮体癌で検索した論文が同じだったということはあるわけで，単純に上記の論文の抄録から病名と症状の関係を導き出すというのは無理があります。ということで，上記の検索結果から重複がある論文を数えてみました。その結果が次の表です。

行ラベル	重複なし	重複あり	総計
子宮筋腫	1409	640	2049
子宮体癌	744	777	1521
子宮内膜症	1072	490	1562
子宮頸がん	1294	206	1500
卵巣腫瘍	3368	1044	4412
総計	7887	3157	11044

結構な数です。このとき，重複を取り除いた純粋な論文の数は9344本でした。

　さて，こうなると，重複の様子がどうなっているのか気になります。そこで，重複している論文の数を調べてみました。その結果が次の表です。

重複数	件数	レコード数
1	7887	7887
2	1234	2468
3	203	609
4	20	80
5	0	0
		11044

重複数が1というのは重複していない，つまり，その論文は上記の5疾患のいずれか一つにだけヒットしたという意味です。そして，重複数が2というのは5疾患のうち2疾患にヒットしたという意味です。

そこで，重複数が2の論文について，どの疾患とどの疾患で重複しているか調べてみました。その結果が次の表です。

疾患	子宮筋腫	子宮体癌	子宮内膜症	子宮頸がん	卵巣腫瘍	合計
子宮筋腫		98	173	41	205	517
子宮体癌			25	47	431	503
子宮内膜症				9	150	159
子宮頸がん					55	55
卵巣腫瘍						0

この結果を見ると，子宮体癌と卵巣腫瘍のペアが431件で一番多そうですが，これは，もともと卵巣腫瘍の論文数が4412本と他の疾患に比べて倍以上多いための見かけ上の数字かもしれません。そこで，本当はどの組み合わせがもっとも多いのかを調べるために，各々の頻度をそれらの期待値で割ってみることにしました。ここで，期待値はつぎのようにして計算します。

まず，重複を除いた論文の総数を数えます。先述したように 9344本ありました。
次に，各々の疾患の割合を求めます。たとえば，子宮筋腫であれば2049÷9344=0.2193です。さらに，2つの疾患の組み合わせと，それらが出現する（同時に論文のキーワードになる）確率を計算します。たとえば，子宮筋腫と子宮体癌の組み合わせならば0.2193×0.1628＝0.0357となります。2つの疾患の組み合わせは全部で5×4÷2＝10通りあるので，それぞれの同時確率を求め，それらを足し合わせて同時確率の合計を求めます。同時確率の合計は0.5229になりました。
これで準備が整いました。以上の結果を用いて期待値を次のように計算します。
期待値＝重複数が2の論文の総数×同時確率÷同時確率の合計
最後に同時確率の合計で割っているのは，「重複数が2のときの条件付き確率」を求めるためです。
以上の結果，次のような期待値が得られました。

期待値	子宮筋腫	子宮体癌	子宮内膜症	子宮頸がん	卵巣腫瘍	総計
子宮筋腫		84	87	83	244
子宮体癌			64	62	181
子宮内膜症				63	186
子宮頸がん					179
卵巣腫瘍
						1234

先に求めた重複数をこの期待値で割ると次のようになります。

比率	子宮筋腫	子宮体癌	子宮内膜症	子宮頸がん	卵巣腫瘍
子宮筋腫		1.16	2.00	0.49	0.84
子宮体癌			0.39	0.76	2.38
子宮内膜症				0.14	0.81
子宮頸がん					0.31
卵巣腫瘍

もっとも比率が高かったのは，やはり子宮体癌と卵巣腫瘍で2.38でした。この2疾患には密接な関連があるということでしょうか。次に多かったのは子宮筋腫と子宮内膜症で2.00です。逆に最も比率が小さかったのは子宮内膜症と子宮頸がんの組み合わせで0.14でした。

間違いを発見！

「重複数が2のときの条件付き確率」の求め方に間違いがあることが分かりました。
上では，同時確率を計算するのにP(子宮筋腫)×P(子宮体癌)としました。ここで，P(XXX)は疾患がXXXである確率です。しかし，よく考えてみるとこの計算だと「重複数が2のときの」という条件が入っていません。子宮筋腫と子宮体癌だけでなく，他の疾患が含まれる場合でもカウントしてしまいます。ですから，正確に計算するためにはこの中から重複数が3以上の場合を取り除いてやらねばなりません。しかし，これはとても大変な計算になります。重複数が3以上の場合なんてほとんどないと考えれば概ねこの結果が正しいと言えます。
実際，重複数が3の場合は203本，4の場合は20本，そして5本の場合はありませんでした。重複数が2の場合が1234本であることを考えると，まあいいかということになります。
それでも気持ちが悪いのでシミュレーションを行ってみました。その結果が次の表です。

	子宮筋腫	子宮体癌	子宮内膜症	子宮頸がん	卵巣腫瘍
子宮筋腫		1.47	2.72	0.61	0.69
子宮体癌			0.54	1.09	2.13
子宮内膜症				0.20	0.71
子宮頸がん					0.28
卵巣腫瘍

先ほどの結果とあまり違わないように見えます。念のため，先ほどの結果で割ってみます。

比率	子宮筋腫	子宮体癌	子宮内膜症	子宮頸がん	卵巣腫瘍
子宮筋腫		1.3	1.4	1.2	0.8
子宮体癌			1.4	1.4	0.9
子宮内膜症				1.4	0.9
子宮頸がん					0.9
卵巣腫瘍

このように比を取るとやはり違いがあるようです。これは理論計算では同時確率の計算方法に間違いがあるからです。間違った理論計算では論文の本数が少ない場合，同時確率がシミュレーションよりも大きくなる傾向があるようです。重複数が3以上の効果が論文数が多い場合に比べてより顕著に効いてくるからだろう考えられます。

シミュレーションでは，最も多い組み合わせは子宮筋腫と子宮内膜症の組み合わせでした。そして2番目に多いのが子宮体癌と卵巣腫瘍の組み合わせです。1位と2位が逆転したものの，これらの疾患が類似していることには変わりがないようです。

ゼミの彷徨

2017年2月16日木曜日

疾患データベースの問題点

間違いを発見！

0 件のコメント:

コメントを投稿