PyPeakRankR:ATAC-seqで見つかる候補調節領域(ピーク)を標準化して特徴抽出するオープンソースツール
この論文は、ATAC-seqのような染色体開放性アッセイで検出される多数の候補調節領域(“ピーク”)から、再現可能で移植可能な形で特徴を取り出すソフトウェア、PyPeakRankRを紹介します。出力はピークごとの特徴を一列に並べたタブ区切り値(TSV)ファイルで、後続の解析や比較がしやすくなります。特徴抽出と優先順位付けの処理を分ける設計により、同じ入力データで異なる順位付け手法を公平に比べられるようになります。
PyPeakRankRはコマンドラインとPythonの両方のインターフェースを持ち、BigWig信号の要約、GC含量、PhyloPによる保存度(進化的保存の指標)、信号分布のモーメント(尖度・歪度・二峰性)、細胞型特異性ランキングといった複数の特徴を抽出します。クロスアセンブリ(異なるゲノム座標系)でのスコアを可能にするliftOverのサポートもあり、数千個のピークに対して数分で動作すると報告されています。特徴は決定論的に計算され、同じ入力からは常に同じ表が得られる設計です。
なぜ重要かというと、これまで多くのラボがそれぞれ独自のスクリプトで特徴を計算しており、手法間の比較や再現性が難しかったためです。PyPeakRankRは標準化された「ピーク×特徴」の行列を作ることで、異なる順位付け戦略を同じ上流データで評価することを可能にします。実績としては、前身のPeakRankRがBrain Initiative Cell Census Network(BICCN)コミュニティチャレンジで16手法中トップ3に入る成績を示し、PyPeakRankRはそれをPythonで再実装・拡張しています。また、本ツールはCross-species Enhancer Ranking Pipeline(CERP)の一部として基底核(basal ganglia)研究で用いられ、得られたエンハンサー付きアデノ随伴ウイルス(AAV)ツールは細胞型で>70%のオンターゲット特異性を示し、優れた例では90%を超えたと報告されています。
重要な注意点もあります。PyPeakRankRは特徴抽出を自動化して再現性を高めますが、どのようにピークを順位付けするかはユーザーに任されており、最終的な候補の品質は選ぶランキング戦略や入力データの質に依存します。パッケージにはATAC特異性の一つのランキング式が実装されていますが、それが唯一の最適解ではありません。また現在サポートする特徴は論文に挙げられたものに限られますが、表形式の設計は将来的な拡張を想定しています。
実装面では、PyPeakRankRはPython(≥3.9)で書かれ、pandas、NumPy、pyBigWig、pyfaidx、SciPyなどの標準的なライブラリに依存します。GitHubでMITライセンスで公開されており、pip経由でインストールできます。論文に示された検証結果や基底核での応用は有望ですが、異なるデータセットや実験条件での性能は、追加のベンチマークや実験で評価する必要があります。