BioSequence

BioSequence[type,"seq"]

表示对应字符串 "seq" 的给定类别 type 的生物分子序列.

BioSequence["seq"]

从序列中推断类型(DNA,蛋白质等).

BioSequence[ent]

给出与基因或蛋白质实体 ent 相关的生物分子序列.

BioSequence[type,{chem1,chem2,}]

给出与给定化学物列表相对应类型 type 的生物分子序列.

BioSequence[type,"seq",{bond1,bond2,}]

表示有给定键列表的生物分子序列.

BioSequence["HybridStrand",{bioseq1,bioseq2,},{bond1,bond2,}]

表示由多个 motif 序列和共享主要连锁组成的序列.

BioSequence[{bioseq1,bioseq2,},{bond1,bond2,}]

表示仅由额外键链接的多个序列.

更多信息和选项

  • 如果可能,BioSequence[] 计算给出以下格式:
  • BioSequence[type,"seq",bonds]基序(单一类型的单链)
    BioSequence["HybridStrand",{bioseq1,bioseq2,},bonds]混合链(多种类型的单链)
    BioSequence[{bioseq1,bioseq2,},bonds]序列集合(许多带有附加键的链)
  • BioSequence 使用下列字母代表每个类型 type 的分子:
  • "DNA"A, C, G, T
    "CircularDNA"A, C, G, T
    "RNA"A, C, G, U
    "CircularRNA"A, C, G, U
    "Peptide"A, C, D, E, F, G, H, I, K, L, M, N, O, P, Q, R, S, T, U, V, W, Y
    "CircularPeptide"A, C, D, E, F, G, H, I, K, L, M, N, O, P, Q, R, S, T, U, V, W, Y
  • 此表的内容可通过 "BioSequenceType" 实体的 "Alphabet" 属性 Entity["BioSequenceType","DNA"]["Alphabet"].
  • 以下是 DNA (RNA) 字母对应的核苷酸:
  • A腺嘌呤
    C胞嘧啶
    G鸟嘌呤
    T (U)胸腺嘧啶(尿嘧啶)
  • 同样,以下是每个肽字母对应的氨基酸:
  • A丙氨酸
    C半胱氨酸
    D天冬氨酸
    E谷氨酸
    F苯丙氨酸
    G甘氨酸
    H组氨酸
    I异亮氨酸
    K赖氨酸
    L白氨酸
    M甲硫氨酸
    N天冬酰胺
    O吡咯赖氨酸
    P脯氨酸
    Q谷氨酰胺
    R精氨酸
    S丝氨酸
    T苏氨酸
    U硒代半胱氨酸
    V缬氨酸
    W色氨酸
    Y酪氨酸
  • 前面表格的内容可通过 "BioSequenceType" 实体的 "AlphabetRules" 属性获得,例如通过 Entity["BioSequenceType","DNA"]["AlphabetRules"].
  • "Peptide""CircularPeptide" 类型还允许句号或星号(. 或 *),用于代表在生物分子翻译发生时在何处停止.
  • 此外,类型 type 可以设置为 None,用于代表没有给定化学物意义的类别序列.
  • BioSequence 还允许代表多个可能化学物的退化性字母.
  • 允许的 DNA 和 RNA 的退化性字母包括:
  • BC,G 或 T/U (非 A)
    DA,G 或 T/U (非 C)
    HA,C 或 T/U (非 G)
    KG 或 T/U ()
    MA 或 C (氨基)
    NA,C,G 或 T/U (任何字母)
    RA 或 G (嘌呤)
    SC 或 G ()
    VA,C 或 G (非 T)
    WA 或 T/U ()
    YC 或 T/U (嘧啶)
  • 允许的关于肽的退化性字母包括:
  • BD 或 N
    JI 或 L
    XA, C, D, E, F, G, H, I, K, L, M, N, O, P, Q, R, S, T, U, V, W, Y
    ZE 或 Q
  • 前面表格的内容可通过 "BioSequenceType" 实体的 "DegenerateLetterRules" 属性获得,例如通过 Entity["BioSequenceType","DNA"]["DegenerateLetterRules"].
  • 在提供了类型和长度后,下列字母看用作任意字母:
  • "DNA" "CircularDNA"N
    "RNA" "CircularRNA"N
    "Peptide" "CircularPeptide"X
  • BioSequence 接受标准缩写代替序列字母.
  • DNA 碱基的可能缩写包括:
  • "dAdo"A
    "dCyd"C
    "dGuo"G
    "dNuc"N
    "dPuo"R
    "dThd"T
    "dPyd"Y
  • RNA 碱基的可能缩写包括:
  • "Ado"A
    "Cyd"C
    "Guo"G
    "Nuc"N
    "Puo"R
    "Urd"U
    "Pyd"Y
  • 氨基酸的可能缩写包括:
  • "Ala"A
    "Asx"B
    "Cys"C
    "Asp"D
    "Glu"E
    "Phe"F
    "Gly"G
    "His"H
    "Ile"I
    "Xle"J
    "Lys"K
    "Leu"L
    "Met"M
    "Asn"N
    "Pyl"O
    "Pro"P
    "Gln"Q
    "Arg"R
    "Ser"S
    "Thr"T
    "Sec"U
    "Val"V
    "Trp"W
    "Xaa"X
    "Tyr"Y
    "Glx"Z
  • 除了序列暗示的连接之外,BioSequence 字母还可以通过附加的 Bond 条目连接.
  • Bond[{i,j},type] 形式指定的键通过 type 类型的键连接对应于字符串位置 ij 的化学物质. 例如,连接 DNA 序列 "ACCT" 中 "A" 和 "T" 的氢键可以表示为 BioSequence["DNA","ACCT",{Bond[{1,4},"MultiHydrogen"]}].
  • 序列级别的单键可以代表分子级别的多个键. 在前面的例子中,"A" 和 "T" 之间的 Bond 代表分子水平上的两个氢键.
  • 在混合链中,形式为 Bond[{{i1,i2},{j1,j2}},type] 的键通过指定 type 的键连接分别在位置 i2j2 处具有索引 i1j1 的基序链. 例如,连接 DNA/RNA 杂交序列 {"ACC","CCU"} 中 "A" 和 "U" 的氢键可以表示为 BioSequence["HybridStrand",{"ACC","CCU"},{Bond[{{1,2},{2,3}},"MultiHydrogen"]}].
  • 在序列集合中,形式为 Bond[{{i1,i2,i3},{j1,j2, j3}},type] 的键通过类型为 type 的键连接分别在位置 i3j3 处具有索引 {i1,i2}{j1,j2} 的基序链.
  • 如果在序列集合层面连接基序链,则可以使用 {i1,1,i3}{i1,i3}. 例如,给定两个 DNA 序列 "CAC" 和 "CTC",连接第一个序列的 "A" 和第二个序列的 "T" 的氢键可以表示为 BioSequence[{"CAC","CTC"},Bond[{{1,1,2},{2,1,2}},"MultiHydrogen"]]BioSequence[{"CAC","CTC"},Bond[{{1,2},{2,2}},"MultiHydrogen"]] .
  • 对于序列集合中的混合链,需要所有索引. 例如,假设 DNA/RNA 混合序列 {"ACC","CCU"} 是序列集合中的第四个序列,那么指向 "U" 的键索引将为 {4,2,3}.
  • 所有 DNA 和 RNA 序列字母都可以用 "MultiHydrogen" 键类型连接.
  • 在肽序列中,并非所有键类型都适用于所有序列化学品. 以下键类型只能连接显示的肽字母:
  • "DisulfideBridges"C C, U U, C U
    "LactamBridges"D K, E K
  • 例如,BioSequence["Peptide","CGGGU",Bond[{1,5},type]] 中的 type 可以是 "DisulfideBridges" 但不能是 "LactamBridges".
  • 基序序列的键也可以用点-括号表示法输入. 这种形式将序列的键表示为单个字符串,其中序列的每个字母对应于字符串中的那个位置. 键字符串的有效字符是句点 ("."),表示没有键或括号("("")"),或尖括号("<"">")表示嵌套键对. 例如,字符串 "<((..>))." 适用于九个字母长的序列,等价于 {Bond[{1,6}],Bond[{2,8}],Bond[{3,7}]}.
  • 通过 BioSequence[]["prop"] 获得的 BioSequence 的属性 "prop" 包括:
  • "SequenceType"作为 "BioSequenceType" 实体的序列类型
    "SequenceString"代表序列的字符串
    "SequenceBondList"序列中明确给定的键列表
    "SequenceBondCount"序列中明确给定的键数量
    "SequenceLength"序列的长度
    "SequencePattern"扩展退化性字母的字符串表达式
    "AbbreviationSequence"使用允许缩写的字符串表达式
    "ChemicalList"字面意义表示的化学实体列表
    "ChemicalPatternList"允许退化性字母表示的化学实体列表
    "MolecularMass"序列的分子质量
    "MolarMass"序列的摩尔质量
    "HELM"序列的 HELM 字符串
    "Properties"属性列表
  • "ChemicalList""ChemicalPatternList" 都可以为序列的每个项给出特定化学物. 前者不支持退化性字母,而后者使用 Alternatives 来表示它们.
  • 如果序列有退化性项,则其分子质量可能是 Interval.
  • "HELM" 属性给出了 BioSequence 的大分子分层编辑语言 (HELM) 表示.
  • BioSequence 可用的类型也可以通过用 "ExtendedBioSequenceType" 实体创建一个 EntityStore 然后进行注册(EntityRegister).
  • 可定义以下 "ExtendedBioSequenceType" 属性:
  • "Alphabet"在这个序列中允许的字母列表
    "AlphabetRules"从字母指定到特定化学物的一种关联关系
    "BibliographicSource"记录序列类型的外部标识符
    "Caption"在格式化的输出中序列上方的标题
    "ComplementLetterRules"定义互补操作的双向规则
    "Icon"显示在序列的格式化输出中的图标
    "MolecularMassRules"从字母指定到分子质量的一种关联关系
  • 图标 "Icon" 可以图像或现存序列类型的规范名称的形式提供.
  • "MolecularMassRules" 会通过 "AlphabetRules" 覆写化学物的分子质量并允许当没有化学物给定时计算质量.
  • 只有当 bioseq 对应一个有效的 BioSequence 表达式时,BioSequenceQ[bioseq] 给出 True.

范例

打开所有单元关闭所有单元

基本范例  (2)

代表一个 DNA 序列:

代表一个 RNA 序列:

范围  (28)

碱基序列  (8)

代表肽的序列:

代表环状 DNA 序列:

代表一个环状RNA序列:

代表一个环状肽序列:

从字母序列中推断类型:

使用标准缩写指定肽序列:

从标准缩写推断序列的类型:

退化性项可作为字符串表达式中的替代项:

实体中的序列  (4)

通过对应化学物列表表示一个序列:

退化性字母可通过化学物之间的替换项指定:

代表 BRCA1 基因的 DNA 序列:

表示蛋白质肌红蛋白的肽序列:

"BioSequenceType" 实体可用作构建生物分子序列时的类型:

带有键的序列  (4)

Bond 可用于向序列添加额外的结构:

不需要指定键的类型,如果可能,将在需要时推断其类型:

RNA 中的键可以使用基本的点括号表示法来指定:

表示带有二硫键的环状肽:

混合链  (5)

混合链是基于其主要结构具有多种类型序列键的链:

基序类型推导过程可用于混合链:

键可以跨越混合链的基序序列:

混合层面的键可以指给定继续中的连接:

也可以在混合链的基序序列上指定键:

序列集合  (7)

除非提供额外的键,否则序列集合代表一组断开的序列:

基序序列可以通过序列层面的键连接:

序列集合可以包含基序链和混合链的任何组合:

类型推断适用于序列集合中的混合链和基序链:

键可以连接多条混合链:

可以在序列集合中的多个层面指定键:

表示具有肽和环状肽成分的序列集合:

推广和扩展  (1)

扩展生物分子序列的表示用于包含八文字 (Hachimoji) DNA:

属性和关系  (28)

BioSequence 提供了多个属性:

BioSequence 的类型是包含许多描述序列的属性的实体:

访问原始序列字符串:

获取所有键的列表:

计算键的数量:

求底层序列的长度:

将退化性字母分解为基于特定碱基的样式:

获取由缩写组成的原始序列字符串:

特定序列可分解为化学物列表:

退化性字母可被分解成替代化学物:

通过可能的退化性选项访问寡核苷酸(即,单链)分子质量:

摩尔质量范围也可用于具有简并字母的序列:

获得一个序列的 HELM 表示:

用分子质量规则和自定义图标定义序列类型:

分子质量可用定义的质量规则进行计算:

混合链的大多数属性是底层基序序列的属性列表:

序列集合的大多数属性是底层基序序列的列表:

"MolecularMass""MolarMass" 属性适用于整个混合链:

质量属性也适用于整个序列集合:

对应 "BioSequenceType" 实体的 "Alphabet" 属性的给定类型的碱基字母:

BioSequence 的 motif 序列可以 Molecule 的输入形式提供:

混合链 BioSequence 也可以作为输入给 Molecule

还可以向 Molecule 提供 BioSequence 集合:

使用 ConnectedMoleculeComponents 获得序列集合的单独分子:

SequenceAlignment 可在 BioSequence 的两个实例间进行对齐:

RandomInstance 可从退化性 BioSequence 中抽样完全指定的实例:

BioSequenceQ 可证实给定类型的 BioSequence 或有其他特征:

BioSequenceComplementBioSequenceReverseComplement 求出 BioSequence 的遗传互补:

BioSequencePlot 显示 BioSequence 的示意图:

当将 "DNA""RNA""CircularDNA""CircularRNA" 类型的 BioSequence 转换为 Molecule 时,序列被解释为从 5' 3' 方向(正向):

当将 "Peptide""CircularPeptide" 类型的 BioSequence 转换为 Molecule 时,序列被解释为从 N 端到 C 端:

可能存在的问题  (4)

包括未定义给定类型的字母的序列不会被格式化:

使用这些序列的后续运算可能不会进行:

也许不能为给定字符串推断其合适的序列类型:

并非所有的混合链都可以转化为 Molecule

混合链中不兼容的基序类型也将导致无法解释质量属性:

没有为所有 DNA 和 RNA 字母定义标准缩写:

巧妙范例  (3)

比较两个很类似的基因:

生成包括所有支持字符的序列:

将人类胰岛素表示为 BioSequence

转换为 Molecule

可视化胰岛素分子:

在 PubChem 中搜索有关胰岛素的信息:

Wolfram Research (2020),BioSequence,Wolfram 语言函数,https://reference.wolfram.com/language/ref/BioSequence.html (更新于 2022 年).

文本

Wolfram Research (2020),BioSequence,Wolfram 语言函数,https://reference.wolfram.com/language/ref/BioSequence.html (更新于 2022 年).

CMS

Wolfram 语言. 2020. "BioSequence." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2022. https://reference.wolfram.com/language/ref/BioSequence.html.

APA

Wolfram 语言. (2020). BioSequence. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/BioSequence.html 年

BibTeX

@misc{reference.wolfram_2024_biosequence, author="Wolfram Research", title="{BioSequence}", year="2022", howpublished="\url{https://reference.wolfram.com/language/ref/BioSequence.html}", note=[Accessed: 22-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_biosequence, organization={Wolfram Research}, title={BioSequence}, year={2022}, url={https://reference.wolfram.com/language/ref/BioSequence.html}, note=[Accessed: 22-November-2024 ]}