### NCBI SRA数据库使用详解
#### 一、简介
NCBI SRA(Sequence Read Archive)数据库是由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)维护的一个重要资源,主要用于存储高通量测序(Next Generation Sequencing, NGS)产生的原始数据。这些数据来源于多种测序平台,例如454、Illumina、SOLiD、Ion Torrent、Helicos和Complete Genomics等。随着技术的发展,SRA不仅保存原始序列数据,还收录了与参考基因组比对后的原始reads信息。
根据数据的生成特点,SRA数据库中的数据被分为四类:
- **Studies**(研究课题):定义了实验的目的。一个study可能包含多个实验。
- **Experiments**(实验设计):包括样本信息、DNA来源、测序平台和技术等细节。每个实验可能包含一个或多个测序结果集。
- **Samples**(样品信息):指特定的研究对象,例如组织样本或细胞系。
- **Runs**(测序结果集):代表测序仪器一次运行所产生的reads集合。
SRA中的数据结构遵循以下层次关系:Studies -> Experiments -> Samples -> Runs。为了便于区分不同类型的数据,SRA使用了不同的前缀:
- ERP 或 SRP 表示 Studies;
- SRS 表示 Samples;
- SRX 表示 Experiments;
- SRR 表示 Runs。
#### 二、使用
要使用SRA数据库,可以通过以下步骤进行操作:
1. **搜索相关研究**:在SRA数据库主页,可以输入关键词搜索相关的研究,如特定的疾病或其他感兴趣的主题。选择合适的数据集进入详细信息界面。(见图2)
2. **查看详细信息**:
- **Study** 详细信息页面提供了关于研究目的、背景和样本信息等概述性内容。(见图3)
- **Experiment** 详细信息页面列出了具体的实验设计细节,包括样本信息、测序方法等。(见图4)
- **Run** 详细信息页面提供了关于测序结果集的具体信息,包括读长、质量得分等。(见图4)
#### 三、下载数据
要下载SRA数据,需要先安装SRAToolkit软件包。具体步骤如下:
1. **下载SRAToolkit**:访问 [https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software](https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software) 下载适用于自己系统的软件包。例如,在CentOS环境下,可使用以下命令下载并解压工具包:
```bash
wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"
tar xzf sratoolkit.current-centos_linux64.tar.gz
```
2. **运行下载工具**:进入工具包目录并使用 `prefetch` 命令下载所需数据,例如:
```bash
cd sratoolkit.2.5.7-centos_linux64/bin
./prefetch SRR2172038
```
完成后,会在当前目录下生成一个包含下载数据的 `ncbi` 文件夹。
3. **转换数据格式**:
- 转换为FastQ格式:
```bash
fastq-dump ./SRR2172038.sra
```
- 转换为FASTA格式:
```bash
fastq-dump --fasta ./SRR2172038.sra
```
#### 四、数据提交
要向SRA提交数据,需要按照以下步骤操作:
1. **确认注册**:确保已在NCBI数据中心网站完成注册。
2. **登录账号**:登录账户后,在左侧菜单选择 `mydata`,然后选择已有的项目或创建新项目。
3. **创建批次**:对于已有项目,选择已有批次或创建新批次,并在创建时指定数据类型为 “SRA”。
4. **提交数据**:点击批次下的 `submit data` 按钮,下载离线提交标识文件(subdesc.bch),然后根据SRA的数据格式标准处理生成的数据文件,连同标识文件一起上传至服务器指定目录。
5. **文件要求**:一个完整的SRA study至少包括一个或多个 `study.xml`, `experiment.xml`, `sample.xml` 和 `run.xml` 文件,以及一个或多个数据文件。但一个批次的提交数据不一定要包含所有文件,`run.xml` 和其包含的所有数据文件必须在同一批次中提交。
通过以上介绍,我们可以看到SRA数据库是一个功能强大且易于使用的平台,为研究人员提供了宝贵的高通量测序数据资源。无论是数据检索、下载还是提交,都有明确的操作流程和指南,大大方便了科研人员的工作。
2025-07-04 09:13:20
483KB
NCBI
1