Month: November 2017

GO功能富集

前几天实验室一个师兄给我一个质谱结果，让帮忙做下go的功能富集，数据格式大概是这样的：由于之前做go和kegg时都是跑流程，像这种针对性的go富集还没做过，说到底，还是由于自己手上缺少数据，没有属于自己的项目，很多细节性的问题都没有经历过。但这不妨碍咱一颗求知的心，我们都是在学习中成长。由于没事的时候逛论坛逛的比较频繁，知道数据的第二列是UniPro数据库的accession，然后该怎么办呢？作为生信人，Google是少不了的，看到Google结果，瞬间明了。根据Google的指引我从网上下载了UniProt数据库里的idmapping.tb.gz文件（wget -c -t 10000 ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz），大概18G左右，数据结构如下：一共有22列，依次分别是：UniProtKB accession，UniProtKB ID，EntrezGene，RefSeq，NCBI GI number，PDB，Pfam，GO，PIRSF，IPI，UniRef100，UniRef90，UniRef50，UniParc，PIR-PSD accession，NCBI taxonomy，MIM，UniGene，Ensembl，PubMed ID，EMBL/GenBank/DDBJ，EMBL protein_id；这就有意思了，数据的第八列就是我们想要的go信息。更有意思的是，有了这个数据库信息，我们就可以根据不同数据库的注释信息做go富集啦！下面要做的是写一个脚本，根据师兄给的结果调出对应的go号，对于会编程的人来说，这点自然不在话下，代码如下： import sys USAGE = “\nusage: python %s idmapping.tb.gz blastout outputfile outputfile2\n” % sys.argv[0] if len(sys.argv) != 5: print USAGE sys.exit() def parseIDmapping(filename): UniProt_GO = {} with open(filename, ‘r’) as f: for line in f: lsplit = line.rstrip().split(“\t”) if lsplit[7]:…

2017年11月16日
sed，awk

sed工具 sed本身也是一个管道命令，可以分析standard input的，而且sed还可以将数据进行替换、删除、新增、选取特定行等的功能。用法：sed [-nefr] 动作参数： -n：使用安静模式。在一般sed的用法中，所有来自stdin的数据一般都会被列出到屏幕上。但如果加上-n参数后，则只有经过sed特殊处理的那一行（或者操作）才会被列出。 -e：直接在命令行模式上进行sed的动作编辑。 -f：直接将sed的动作写在一个文件内，-f filename则可以执行filename内的sed动作。 -r：sed的动作支持的是扩展型正则表达式的语法（默认是基础正则表达式语法）。 -i：直接修改读取的文件内容，而不是屏幕输出。动作说明：[n1[,n2]]function n1,n2:不见得会存在，一般代表选择进行动作的行数，举例来说，如果我的动作是需要在10到20行之间进行的，则‘10,20[动作行为]’ function有下面这些参数： a：新增，a的后面可以接字符串，而这些字符串会在新的一行出现（目前的下一行）； c：替换，c的后面可以接字符串，这些字符串可以替换n1，n2之间的行； d：删除，因为是删除，所以d后面通常不接任何参数； i：插入，i的后面可以接字符串，而这些字符串会在新的一行出现（目前的上一行）； p：打印，将某个选择的数据打印出来。通常p会与参数sed -n一起运行； s：替换，可以直接进行替换工作。通常这个s的动作可以搭配正则表达式。例一：删除第2到5行注意sed后面接的动作，务必以”两个单引号括住！如果体型变换一下，删除第三到最后一行，则是‘nl /etc/passwd | sed ‘3,$d’’，这个$代表最后一行。例二：将第2~5行的内容替换成为‘No 2-5 number’ sed 另一个强大的用法，部分数据的查找并替换：sed ‘s/要被替换的字符串/新的字符串/g’ awk:好用的数据处理工具相比于sed常常作用于一整行的处理，awk则比较倾向于将一行分成数个‘字段’来处理。因此。awk适合小型的数据处理用法：awk ‘条件类型 1{动作 1} 条件类型 2{动作 2} …’ filename awk的处理流程：读入第一行，并将第一行的数据填入$0,$1,$2等变量当中；依据条件类型的限制，判断是否需要进行后面的动作；做完所有的动作与条件类型；若还有后续的‘行’的数据，则重复上面1-3的步骤，直到所有的数据都读完为止。变量名字及意义： NF：每一行（$0）拥有的字段总数 NR：目前awk所处理的是‘第几行’数据…

2017年11月16日
排序命令：sort，wc，uniq

sort 用法：sort [-fbMnrtuk] [file or stdin] 参数： -f：忽略大小写 -b：忽略最前面的空格部分 -M：以月份名字来排序，如JAN，DEC等的排序方法 -n：使用‘纯数字’排序（默认是以文字类型来排序的） -r：反向排序 -u：就是uniq，相同的数据中，仅出现一行代表 -t：分隔符，默认是用tab键来分割 -k：以那个区间（field）来进行排序 wc 用法：wc [-lwm] 参数： -l：仅列出行 -w：仅列出多少字 -m：多少字符 uniq 用法：uniq [-ic] 参数： -i：忽略大小写 -c：进行计数摘自：《鸟哥的私房菜》第三版基础学习篇

2017年11月13日
选取命令：cut，grep

cut cut -d ‘分隔字符’ -f fields cut -c 字符范围

2017年11月12日
通配符与特殊符号

通配符是bash操作环境中一个非常有用的功能，利用它我们处理数据就更加方便。 *：代表0个到无穷多个任意字符 ?: 代表一定有一个任意字符 []: 同样代表一定有一个在中括号内的字符（非任意字符） [-]: 若有减号在中括号内时，代表『在编码顺序内的所有字符』。例如 [0-9] 代表 0 到 9 之间的所有数字，因为数字的语系编码是连续的 [^]: 若中括号内的第一个字符为指数符号 (^) ，那表示『反向选择』，例如 [^abc] 代表一定有一个字符，只要是非 a, b, c 的其他字符就接受的意思特殊字符 #: 注释，这个最常用在script中，视为说明.其后的数据均不执行 \: 转义符号，将特殊字符或通配符还原成一般字符 |: 分隔两个管线命令的界定 ;: 连续性命令的界定（注意，与管线命令并不相同） ~: 用户的主文件夹 $: 使用变量前导符 &: 将指令变成在背景下工作 !: 逻辑运算中的“非” /: 路径分隔符号 >,>>: 数据流重定向，输出导向，代表替换和累加 <,<<: 数据流重定向，输入导向 ”: 单引号，不具有变量置换的功能 “”: 具有变量置换的功能 “: 两个“`”中间为可以先执行的指令 (): 中间为子shell的起始与结束 {}:…

2017年11月10日
shell的变量功能（二）

变量键盘读取，数组与声明：read，array，declare 1. read 读取来自键盘输入的变量，常被用在 shell script 的撰写当中。用法： 2. declare / typeset declare 或 typeset 是一样的功能，就是在声明变量的类型。如果使用 declare 后面并没有接任何参数，那么 bash 就会主动的将所有的变量名称与内容通通叫出来，就好像使用 set 一样。用法：declare [-aixr] variable 参数： -a ：将后面名为 variable 的变量定义成为数组 (array) 类型 -i ：将后面名为 variable 的变量定义成为整数数字 (integer) 类型 -x ：用法与 export 一样，就是将后面的 variable 变成环境变量； -r ：将变量设置成为 readonly 类型，该变量不可被更改内容，…

2017年11月6日
我的Python之路

大概去年六七月份，那时还不懂什么是生物信息学，什么是编程，Python更是听都没听说过，稀里糊涂的就在老师的安排下跟着别的院一个师兄学习生信，刚见面师兄就跟我讲解了什么是生物信息学，学生信的种种好处，什么不用做实验就能发文章啊，做的好的话读博能去一个不错的实验室啊之类的，当时我是处于懵逼状态，心想“这是一种怎样的操作？” 在师兄的推荐下，我掏了300大洋买了《DNA和蛋白质序列数据分析工具》《鸟哥的私房菜上下》三本书，用来了解和入门什么是生物信息学。说实话，到现在为止这三本书我都没怎么翻过，在我带入门的人里，我也不会推荐《鸟哥的私房菜》这种，这只会让他们望而却步，只要他们想学，我手里也有他们学不完的资源。好的是，师兄手把手的教了我一段时间。记得师兄说过，要想学生信，就必须学会一门编程语言，否则出门千万别说自己是搞生信的，丢人！所以我就又入了编程的坑，在师兄的强烈推荐下，我选择学习Python，师兄也帮我装上Python.2.7和编辑器，并装上Biopython包，然后扔给我一本全英的《Biopython》和一个脚本，说你要是一周之内不能把这个脚本弄懂，就不要学生信了，不适合。当时我差点就一口老血喷出来，心想“老哥，咱先不谈其他，你好歹也给个中文版本的吧，谁跟你这么强，硕士就到英国留学，毕业论文搞个全英的？”无奈，有总比没有强，还好后来我在网上搜到了这本书的中文版。因此，在我对Python一无所知的情况下，首先学习了biopython，然后买了《python基础教程》《python核心编程》这两本书更进一步的学习。一但入了此坑就很难回头，尽管现在我主要跟着学习生信的老师和一些小伙伴都是Perl大神，也很难把我从这个坑里拉出来。可喜的是，现在python在生信上的应用越来越广，在机器学习方向，python也是处于领先地位，这更加给了我学下去的理由。当然，主学Python之余，R和Perl也是要懂一点的，用来做图和单行操作还是很必要的！人生接触的第一个脚本： import re import sys, getopt import operator from Bio import SeqIO from Bio.Seq import Seq from Bio.SeqRecord import SeqRecord from Bio.Alphabet import generic_nucleotide import re import sys, getopt import operator opts, args = getopt.getopt(sys.argv[1:], “c:i:o:”) blast_info = “” out_file = “” for op, value in opts: if op ==”-o”: #ARG_pattern_MIN_7030.fasta…

2017年11月6日
shell的变量功能（一）

什么是变量？变量是一个存储位置和一个关联的符号名字，这个存储位置包含了一些已知或未知的量或者信息，即值。在C语言里，变量是如下三方面的统一体：名字（运行时会变成数字化的名字，内存地址）存储位置（某一位置开始的一定大小的存储空间）该存储位置里内容的解释方式（即类型，整数、浮点数还是字符串？）任意一部分单独都不是变量。当我们给一个变量a赋值另一个值时，改变的是a对应的存储位置里的内容，赋值前后是同一个a，因为1、2、3都没有变。变量的显示变量的设置规则变量与变量内容以一个等号“=”来连接；等号两边不能直接接空格符； shell中所有变量都定义为字符串，且变量名称只能是英文字母与数字，但是数字不能是开头字符；若有空格符可以使用双引号 ” 或单引号 ‘ 来将变量内容结合起来，但须要特别留意，双引号内的特殊字符可以保有变量特性，但是单引号内的特殊字符则仅为一般字符；必要时需要以转意字符 \ 来将特殊符号 ( 如 Enter, $, \, 空格符, ‘ 等 ) 变成一般符号；在一串指令中，还需要借由其它的shell指令提供的信息，可以使用 ` command` (特别特别注意，那个 ` 是键盘上方的数字键 1 左边那个按键，而不是单引号！) 或则$(命令) 。若该变量需要扩增变量内容时，则需以双引号及 $变量名称如： “$PATH”:/home 继续累加内容；若该变量需要在其它子程序执行，则需要以 export 来使变量变成环境变量，例如： #export PATH…

2017年11月5日