GEO芯片数据下载和探针ID转换(保姆级教程)

03-01 1261阅读

GEO芯片数据下载和探针ID转换(保姆级教程)

  • 一、问题描述
    • 探针ID转换
    • 数据是否预处理过
    • 二、Rstudio的安装(建议阅读,避免后续转换时出错)
      • 安装包的下载
      • 安装步骤
      • 三、(正文)芯片数据下载和ID转换
        • 相关设置和包的加载
        • 数据下载

          本文章主要参考了:

          ①R 语言的安装(详细教程)

          ②GEO芯片数据下载和探针ID转换

          一、问题描述

          探针ID转换

          我们需要的基因表达量信息在NCBI的GEO数据库中对应的编号为GSE95394,搜索后结果如下GEO芯片数据下载和探针ID转换(保姆级教程)

          来到页面底部,这里的series Matrix File(s)是已经处理好所有样本对应各基因的表达量数据

          GEO芯片数据下载和探针ID转换(保姆级教程)

          下载并打开后如下图,发现左边并不是基因的名字,而是探针ID号,我们需要将探针ID转换为基因名才能进一步处理

          GEO芯片数据下载和探针ID转换(保姆级教程)

          数据是否预处理过

          此外还需要注意的是,选择其中某个样本点击进去

          GEO芯片数据下载和探针ID转换(保姆级教程)

          结果如下,这表明你下载的表达量是经过了log2(N+1)转化后的,如果没做特殊说明的话,这里的N一般表示基因数量,即counts,那么你下载到的表达量就是log2(counts+1),这是需要我们注意的

          GEO芯片数据下载和探针ID转换(保姆级教程)

          二、Rstudio的安装(建议阅读,避免后续转换时出错)

          安装包的下载

          注意:由于我们需要使用WGCNA等包,所以对R以及RStudio的版本是有一定要求的(要求>4.1.3)

          这里我已经将合适的版本上传至百度网盘,注意:这三个安装文件都需要下载,缺一不可

          链接:https://pan.baidu.com/s/1pbgbCVQf69sEk7_tK8SGSw

          提取码:4aeh

          GEO芯片数据下载和探针ID转换(保姆级教程)

          安装步骤

          ①可以在D盘中新建一个R文件夹,将这三个文件都放在R文件夹里面,然后安装路径也都在这个R文件夹里面。(为什么安装包要和最终的安装路径放一块?因为不这样的话,RStudio运行时可能检测不到R-4.2.2安装文件夹里面etc文件夹中的Rprofile.site,这个文件的作用我稍后会解释)

          ②按照R-4.2.2-win、rtools、RStudio顺序依次安装(顺序不能乱),安装时都选择默认选项即可。

          ③因为有些R中的包依赖于java所以还需要进行java的环境配置:java 环境配置(详细教程)

          ④运行RStudio:在安装的RStudio>bin文件夹里面,有个rstudio.exe,双击打开即可

          GEO芯片数据下载和探针ID转换(保姆级教程)

          GEO芯片数据下载和探针ID转换(保姆级教程)

          ⑤镜像源的设置:

          使用记事本打开这个文件

          GEO芯片数据下载和探针ID转换(保姆级教程)

          将下面这段代码复制并粘贴到最后

          ## 设置镜像
          local({r 
VPS购买请点击我

文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

目录[+]