バイオインフォマティクス:多量情報解析と可視化の研究
バイオインフォマティクス,情報生物学は,生物学,ゲノムサイエンスの研究にとって欠かせない分野となってきております.
高速シークエンサーやタイリングアレイなど,ゲノム情報を並列に解析する装置が導入され,一度に多量の情報が出るようになりました.
そのため,様々なサンプルのタイピングやメチル化の情報,発現情報などを簡単に実験情報として得ることができるようになりました.
そのための次のステップは,出てきた実験情報の解析です.そこにバイオインフォマティクスや情報生物学が役に立つと言えます.
ヒトゲノムのsequencingが終了した2000年頃には,マイクロアレイデータなどの解析がメインであり,
Microsoft Excelや簡単なプログラムを利用することで,情報解析ができました.
しかし,マイクロアレイのアレイ密度一つを考えても半導体技術の進歩とともに一気に高密度化し,タイリングアレイなどへと進化していきました.
さらに高速シーケンサーの登場により,データの扱う量が一気に増えてしまい,簡単に情報をハンドリングすることさえ難しくなってしまいました.
私は,情報系のバックグラウンド,さらにバーチャルリアリティの研究室出身という背景を活かして,ゲノム情報の解析と可視化の研究に取り組んできました.
データを解析するのも重要なのですが,その解析結果を把握し,理解し,次の研究ステップに行くために判断できることがさらに重要です.
そのためには可視化が大きな要素となってきます.
解析と可視化をあわせて行うことで,研究の判断のスピードを高め,解析が進んでいくと考えています.
そのための,情報解析,情報可視化(視覚化)のアルゴリズムやシステムの構築などを手がけてきました.
人の個人間の差として,遺伝子の数の個人差(コピー数多型=Copy Number Variation: CNV)があることが注目されていました.
コピー数多型(CNV)といわれる現象は遺伝子の「数の違い」であり,数Kbp~数Mbpの長さの大きな領域の個数が個人によって異なるというものです.これらの情報解析,可視化に携わることができました.
そして,東京大学先端科学技術研究センターゲノムサイエンス分野の油谷浩幸教授,石川俊平先生,河村大輔氏などと国際的産学連携の共同プロジェクトにおいて,第一世代のヒトゲノムコピー数多型(CNV)地図を作成し2006年11月23日 Natureに発表いたしました.
具体的にはデータ解析や論文のFigureでも利用された可視化方法の研究をいたしました.
特にCNVの全体像をとらえるために,染色体上に様々な情報を載せることで全体を把握可能な仕組みを開発しました.
国際的産学連携の共同プロジェクトの場合,同じ対象について違うプラットフォームの実験を行い,整合性を取ります.
本研究の場合,Affymetrix社の500K SNPアレイのシグナルの処理の結果と,英国サンガーセンターにおけるTiling BAC-CGHアレイのデータなどを統合し,さらには複数のグループのよる定量PCR,質量分析,FISHなどによる検証データなどが統合されていきます.
このような場合,統合された情報を一度に把握し,見ることが重要になります.その際に可視化が有効になります.
本プロジェクトでは開発したゲノムビューアを用いてCNVのマッピングなどを行い,当該Natureの論文のFigure4にも採用されました.
大量の情報を直観的に扱うためには,情報の可視化が有効ではないか,と考えています.
これは,全体像と詳細像を両方提示することによって,両者の関係や,情報自体の把握が容易になるためです.特にインタラクティブな情報の可視化は,情報を解析する際に有効であろう,と思っています.
これまでに,様々なタイプのマイクロアレイのデータを統合する,インタラクティブなゲノムビューワを作成してきました.このビューワを利用することで,シームレスに染色体全体像から塩基対レベルまでズームインおよびズームアウトが簡単な操作で行うことができるようになります.
また,同じようにLOH(ヘテロ接合性消失)と呼ばれるゲノム上の対立遺伝子の一部分が消失する事象を可視化するビューワも作成してきました.
コピー数を染色体の数で表示することにより,一目でコピー数の全体像がわかるように可視化することを行ってきました.
さらに,肺がんの事例においては,LOHの起きる場所を抽出して赤色で可視化することにより,LOHの起きている場所に偏りのあることなどが見て取ることが一目で可能となりました.
参考:
西村 邦裕,石川 俊平,広田 光一,油谷 浩幸,廣瀬 通孝, ”ゲノムコピー数異常検出のための可視化手法”, 日本データベース学会Letters (DBSJ Letters),Vol.4,No.3,pp.1-4,2005.
[PDF]
ヒト:コピー数を染色体の数で可視化
ヒト:肺ガンの事例.LOHの起きている部分の分布
ヒトゲノム解読を経て,マイクロアレイ技術も大きく発展し,近年は様々な生物種の全ゲノムやマイクロRNA,さらには個々のエクソン毎にプローブが設計されたアレイが開発されています.
エクソンアレイは,エクソン部分にプローブセットが設計されており,エクソンご との発現の違いが原理的には観測できるため、転座やスプライスバリアントの検出 などに利用できると考えられています.そのようなエクソンアレイの解析なども行っていました.具体的には、Affymetrix社が提供するヒトゲノムエクソンアレイ(Gene Chip(R) Human Exon 1.0 ST Array) を対象とし,検出力,再現性,発現アレイとしての利用,選択的スプライシング解析,スプライスバリアント検出,転座検出などを手がけることを行っていました.また,エクソンアレイのための解析アルゴリズムやViewerなどを開発していました.Webベースで利用したために,見たい場所をクリックすることでグラフを出すことや全体像を見ることなどが可能となりました.
参考:
西村 邦裕,”エクソンアレイ解析”, 遺伝子医学MOOK10号「DNAチップ/マイクロアレイ臨床応用の実際」, pp.76-83, 2008.
[Medical Doのサイト]
Exon Arrayでスプライスバリアントの解析をした事例
WebベースのExon Array Viewer
ゲノムの情報は公共データベースとして公開されていることが多く,
Distributed Annotation System (DAS) 形式の利用例が増えてきている.
DAS形式で公開されているゲノム情報を閲覧する際には,主にWebブラウザを利用します.
ゲノム情報を閲覧するという意味においてはWebブラウザでも十分なのですが,ゲノムを解析する際,多量のゲノムの全体像を把握しながら詳細像を見ていくためには,よりインタフェースの充実したビューワが要請されていると言えます.
例えば,WebブラウザのGoogle MapとよりリッチなインタフェースであるGoogle Earthなどの関係とも近いと思います.
そこで私はかずさDNA研究所のメンバーと共同研究を行い,よりシームレスにインタラクティブなゲノムビューワが必要であると考え,DASクライアントとして機能するゲノムビューワgenoDiveの開発を行っています.
染色体の全体像からアミノ酸配列・塩基配列まで,連続的に拡大するを可能にするとともに,自分の興味のあるLocusを順番に閲覧する機能などを兼ね備えたゲノムビューワです.
DASサーバを指定しておき,その指定したDASサーバから種を選択し,その種に応じたデータをダウンロードしながら可視化していく仕組みで,簡単な操作で動かせる双方向性も兼ね備えています.
原核生物・真核生物の両方に対してビューワの開発を行っています.
GenoDiveはC++とOpenGLで書かれ,Windows/Mac OSX/Linuxのクロスプラットフォームで動くようになっています.
東京大学先端科学技術研究センター ゲノムサイエンス部門 油谷研究室との共同研究として,マイクロアレイ解析を行ってきました.
ヒトのがんサンプルなどを対象とし,マイクロアレイとしてはAffymetrix社のGeneChipにより算出されるシグナル情報を取り扱っています.
がんや正常組織サンプルから取得されたシグナルを比較し,疾患や予後,ステージに関連している遺伝子を探すこと,絞り込むことなどのアルゴリズム開発やそのための可視化を行ってきました.
様々なアノーテション情報や実験から得られた複数の種類のデータを一緒に統合して一つの可視化環境内で見せる手法などの開発等を行っています.
また,スプライシングや転写などの関係といった生物学的解釈をする際のサポートができるようにするアルゴリズムなどのを考えています.
発現が染色体の部分によって偏っていることを可視化するExpression Imbalance Mapの解析方法などを開発することも行いました.
また,アルゴリズムの一つとして,主成分分析(PCA)を利用したマイクロアレイの解析方法などを作成したりしました.
PCAにより分離された遺伝子がどのような意味付けを持つのか,などを3次元空間など,軸を変えて見いだしていく方法です.
参考:
Kunihiro Nishimura, Koji Abe, Shumpei Ishikawa, Shuichi Tsutsumi, Koichi Hirota, Hiroyuki Aburatani, Michitaka Hirose, "A PCA based method of gene expression visual analysis", The 14th International Conference on Genome Informatics (GIW 2003), Genome Informatics, Vol.14, pp.346-347, Yokohama, Japan, 2003.12.
Makoto Kano, Kunihiro Nishimura, Shumpei Ishikawa, Shuichi Tsutsumi, Koichi Hirota, Michitaka Hirose and Hiroyuki Aburatani, "Expression Imbalance Map: A New Visualization Method for Detection of mRNA Expression Imbalance Regions", Physiol. Genomics, Vol.13, pp.31-46, 2003.
Expression Imbalance Map