「R因子(R-Value)」とは、そのタンパク質立体構造が実測構造とどれほど合致するか?を判断する指標です。
R因子は、タンパク質立体構造の構造パラメータについて、実測値の合計に対する実測値と理論値の差の合計の比で表され、値が小さいほど実測値と理論値が合致していると言えます。
タンパク質の結晶構造は特定の構造を示さない水分子を多く含み、無秩序である場合が多いため、小さなR因子を得ることは難しいとされ、R因子=0.2ほどで十分合致すると言われています。
R因子は、その算出方法の特徴から、データ数によって値が大きく変動しやすいという欠点があります。予め理論値と大きく異なる実測値を除去してR因子を算出し、故意なデータ操作が行われる可能性もあります。
そこで、より信頼性の高い指標として用いられている値が「R-free」です。「R-free」の算出では、全実測値のうち少数のデータ(RCSB PDBでは10%ほど)をランダムに取り除いてから立体構造モデルを作成し、その理論値と予め取り除いておいた実測値とを比較します。「R-free=0.26」ほどで立体構造と実測構造が十分合致していると考えられます。
RCSB PDBの各タンパク質データのウェブページでは、「Structure Summary」タブの「Experimental Snapshot」及び同ページ下部の「Experimental Data & Validation」に、R因子が示されています。
なお、RCSB PDBでは、次の4種類のR因子が用いられています。
- R-Value Observed:報告されている全立体構造実測データのうち、特定の分解能(R-Value値上部に明示された分解能(Resolution))の実測データから算出されたR因子です。
- R all:報告されている全立体構造データから算出されたR因子です。
- R-Value Work:誤解を恐れず端的に言えば、故意にデータを操作してから算出したR因子です。特定の分解能(R-Value値上部に明示された分解能(Resolution))の実測データのうち、理論値と大きく異なるデータを予め取り除いてから算出されています。
- R-Value Free:いわゆる「R-free」の値です。特定の分解能(R-Value値上部に明示された分解能(Resolution))の実測データのうち、10%ほどのデータを予めランダムに取り除いてからモデル化を行い、得られた立体構造データと予め取り除いておいた実測データとの比較から算出されています。この値が0.26以下であることが望ましいです。
<参考文献>
PDB-101 R-value and R-free
https://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/r-value-and-r-free
https://www.rcsb.org/pages/help/advancedsearch/xRayRefinement
RCSB PDB Refinement R Factors
https://www.rcsb.org/pages/help/advancedsearch/xRayRefinement