Neuere Entwicklungen in der Statistik - Zusammenfassung Vogl

From StatWiki
Jump to: navigation, search

Genexpression

(von de:Genexpression)

Genexpression oder kurz Expression oder Exprimierung bezeichnet im weiteren Sinne die Ausprägung des de:Genotyps — also der genetischen Information (de:Gen, DNA) — zum de:Phänotyp eines de:Organismus oder einer de:Zelle. Im engeren Sinne bezeichnet Genexpression die de:Synthese von de:Proteinen (siehe de:Proteinbiosynthese) aus den genetischen Informationen.

Stufen der Genexpression

Generell kann eine Regulation der Genexpression auf verschiedenen Stufen des de:Realisierungsprozesses vom Gen zum Merkmal stattfinden:

1. Die "Position" des Gens im de:Zellkern und damit seine Zugänglichkeit (siehe de:Chromatin)

2. Transkription: Synthese von de:RNA aus DNA

3. Translation: Synthese eines de:Proteins aus mRNA

4. de:Posttranslationale Modifikation: Modifizierung von Proteinen nach der Translation

Genotype

(von de:Genotype)

Der Genotyp oder das Erbbild eines de:Organismus repräsentiert seine exakte genetische Ausstattung, also den individuellen Satz von de:Genen, den er im de:Zellkern in sich trägt.

Zwei Organismen, deren Gene sich auch nur an einem de:Locus (der Position in ihrem de:Genom) unterscheiden, haben einen unterschiedlichen Genotyp. Der Begriff "Genotyp" bezieht sich also auf die vollständige Kombination aller de:Allele / aller Loci eines Organismus. Beim de:Phänotyp eines Organismus dagegen handelt es sich um seine tatsächlichen körperlichen de:Merkmale wie Größe, Gewicht, Haarfarbe usw. Der Genotyp ändert sich zu Lebzeiten eines Organismus nicht, ausgenommen durch Unfälle wie z.B. den Einfluss von radioaktiver α-, β-, und γ-Strahlung oder durch Temperaturschocks.

Phänotyp

(von de:Phänotyp)

Der Phänotyp oder das Erscheinungsbild ist die Summe aller äußerlich feststellbaren de:Merkmale eines de:Individuums. Er bezieht sich nicht nur auf morphologische, sondern auch auf physiologische Eigenschaften.

Im Phänotyp spiegeln sich auch erworbene Eigenschaften wider, etwa vergrößerte oder verkümmerte Muskelgruppen, je nach häufigerem oder weniger häufigem Gebrauch, Zwergwuchs durch widrige Umweltbedingungen etc. Solche erworbenen Eigenschaften werden nicht weitervererbt, der de:Genotyp wird dadurch nicht beeinflusst.

  • Phänotyp = Genotyp + Umwelt
  • Phänotyp = äußeres Erscheinungsbild
  • Genotyp = genetische Information
  • Umwelt = Einflüsse, die aus der Umwelt kommen

qPCR

(von de:qPCR))

Die Real-Time-quantitative-PCR (RTQ-PCR, auch Real Time Detection PCR, kurz RTD-PCR) ist eine Vervielfältigungsmethode für de:Nukleinsäuren, die auf dem Prinzip der herkömmlichen de:Polymerase-Kettenreaktion (PCR) beruht, und zusätzlich die Möglichkeit der Quantifizierung bietet. Die Quantifizierung wird mit Hilfe von Fluoreszenz-Messungen am Ende bzw. während eines PCR-Zykluses (daher der Name "Real Time") durchgeführt und unterscheidet sich somit von anderen quantitativen PCR-Methoden (qPCR), die erst nach Ablauf der PCR quantitativ ausgewertet werden (z.B. de:Kompetitive PCR). Die de:Fluoreszenz nimmt proportional mit der Menge der PCR-Produkte zu, was eine Quantifizierung möglich macht. Eine gelelektrophoretische Auftrennung der Fragmente ist nicht nötig, die Daten sind sofort verfügbar und das Kontaminationsrisiko ist gering.

k-Means Clusteranalyse

(siehe auch de:K-means#k-means-Algorithmus)

k-Means Clustering gehört zu den einfachsten Austauschverfahren. Es kann auch für größere Datensätze verwendet werden, da es bei wenigen Clusterzentren relativ schnell berechnet werden kann. k-Means Clustering verlangt die Vorgabe der gewünschten Clusterzahl k. Mathematisch gesehen, entspricht k-Means Clustering einer Optimierung bei der die Zielfunktion

\sum_{j=i}^k \sum_{i=1}^n ||x_{i,j} - c_j||^2 \,

minimiert wird, wobei  ||x_{i_j} - c_j ||^2 \, den Abstand zwischen dem Datenpunkt i und dem Clusterzentrum j definiert.

Algorithmus

1. Initialisierung Zur Initialisierung werden die k vorgegebenen Clusterzentren auf k zufällig ausgewählte Datenpunkte gesetzt. Alternativ kann man auch die ersten k Datenpunkte nehmen. Wichtig ist, dass alle k Clusterzentren unterschiedliche Positionen im p-dimensionalen Raum aufweisen. Die besten Ergebnisse erreicht man wenn man die Clusterzentren so positioniert, dass die Abstände zwischen den initialen Clusterzentren maximal sind. Jedem Clusterzentrum wird eine eindeutige Klassennummer (1 bis k) zugewiesen.
2. Klassifierung Finde für jeden Datenpunkt das nächste Clusterzentrum und weise dem Datenpunkt die Klassennummer dieses Clusterzentrums zu.
3. Clusterzentren berechnen Berechne die Position der Clusterzentren neu, in dem alle Datenpunkte die zu einer bestimmten Klasse gehören gemittelt werden.
4. Iteration Wiederholung ab Schritt 2, bis die Klassifizierung stabil ist.

Biologische Begriffe

DNA

DNA liegt im Zellkern in Chromosomen vor. Im Zellkern haben wir 46 DNA-Moleküle Die in allen Lebewesen vorkommende Desoxyribonukleinsäure ist die Trägerin der Erbinformation. Sie enthält die Gene, also die Bauanleitungen für andere Zellbestandteile wie Ribonukleinsäuren (RNA) und Proteine, welche für die biologische Entwicklung und das Überleben der Zelle notwendig sind. Im Normalzustand ist die DNA in Form einer Doppelhelix organisiert. Chemisch gesehen handelt es sich um eine Nukleinsäure, ein langes Kettenmolekül (Polymer) aus Einzelstücken, sogenannten Nukleotiden. Jedes Nukleotid besteht aus einem Phosphat-Teil, dem Zucker Desoxyribose und einer von vier organischen Basen mit den Kürzeln A,T, G und C. Innerhalb der Protein-codierenden Gene legt die Abfolge der Basen die Abfolge der Aminosäuren des jeweiligen Proteins fest: Im genetischen Code stehen jeweils drei Basen für eine bestimmte Aminosäure. Bei den Zellen von Pflanzen, Tieren, und Pilzen, den sogenannten Eukaryoten, ist der Großteil der DNA im Zellkern als Chromosomen organisiert, während bei Bakterien und Archaeen (den Prokaryoten) die DNA im Zellsaft, dem Cytoplasma, verteilt vorliegt. Manche Zellorganellen der Eukaryoten, nämlich Mitochondrien und Chloroplasten, enthalten ebenfalls DNA. Manche Viren, die sogenannten RNA-Viren, haben keine DNA. Hier wird die genetische Information durch das der DNA verwandte Molekül RNA vererbt

RNA

Ribonukleinsäure ist eine Nukleinsäure, das heißt eine Kette aus vielen Nukleotiden (ein so genanntes Polynukleotid, Molekül, das als Grundbaustein von Nukleinsäuren (DNA und RNA) fungiert und auch im genetischen Code verwendet wird). Eine wesentliche Funktion der RNA in der Zelle ist die Umsetzung von genetischer Information in Proteine. RNA ist hierbei sowohl als Informationsträger beteiligt (mRNA, RNA-Viren), als auch als katalytisches Molekül bei der Übersetzung dieser Information in ein Protein (rRNA, tRNA).

Proteine

Proteine, umgangssprachlich auch Eiweiße genannt, sind Makromoleküle, die hauptsächlich aus den Elementen Kohlenstoff, Wasserstoff, Sauerstoff, Stickstoff und - seltener = Schwefel aufgebaut sind. Proteine gehören zu den Grundbausteinen aller Zellen. Sie verleihen der Zelle nicht nur Struktur, sondern sind die molekularen "Maschinen", die Stoffe transportieren, Ionen pumpen, chemische Reaktionen katalysieren und Signalstoffe erkennen. Die Zusammensetzung eines Proteins, und damit sein Aufbau, ist in dem jeweiligen Gen kodiert.

Transkription

Als Transkription wird in der Genetik die Synthese von RNA anhand einer DNA als Vorlage bezeichnet. Die dabei entstehende RNA lässt sich größtenteils in drei Gruppen einteilen: mRNA (zur Proteinbiosynthese) sowie tRNA und rRNA. Die Transkription ist, wie auch die Translation, ein wesentlicher Teilprozess der Genexpression. Bei der Transkription wird ein Gen abgelesen und als RNA-Molekül vervielfältigt, d.h. ein spezifischer DNA-Abschnitt dient als Vorlage zur Synthese eines neuen RNA-Strangs. Bei diesem Vorgang werden die Nukleinbasen der DNA (A,T,G,C) in die Nukleinbasen der RNA (A,U,G,C) umgeschrieben. Weiterhin erfolgt bei Prokaryoten die Transkription im Cytoplasma der Zelle, bei Eukaryoten im Zellkern. Bei Eukaryoten wird außerdem die prä-mRNA nach ihrer Synthese noch modifiziert (siehe: Splicing), bevor sie aus dem Zellkern in das Cytoplasma transportiert wird. Nach der Transkription erfolgt im Cytoplasma am Ribosom die Translation der mRNA in ein Protein.

Translation

Als Translation wird die Synthese eines Proteins (siehe auch Proteinbiosynthese) aus der so genannten mRNA bezeichnet. Die Translation, als ein wesentlicher Teilprozess der Genexpression, ist der Transkription (Umwandlung der DNA in RNA) nachgelagert, und erfolgt in lebenden Zellen an besonderen Strukturen, den Ribosomen. Die aus der DNA entstandene mRNA enthält die genetische Information für den Aufbau eines Proteins. Diese Information wird nun im Verlauf der Translation genutzt um das entsprechende Protein zu synthetisieren. Dabei codieren jeweils drei aneinanderfolgende Nukleotide der mRNA (die Codons, oder auch Basentripletts genannt werden) eine bestimmte Aminosäure (siehe: genetischer Code), aus denen das Protein dann sequentiell aufgebaut wird.

cDNA

cDNA (von eng. complementary DNA) ist eine DNA, die mit Hilfe der Reverse Transkriptase meist aus mRNA hergestellt wird.

DNA Hybridisierung

Die Hybridisierung bezeichnet einen für molekulargenetische Techniken bedeutsamen Vorgang, bei dem sich an einem Einzelstrang einer DNA oder einer RNA ein mehr oder weniger vollständig komplementärer DNA- bzw. RNA-Einzelstrang anlagert, indem Wasserstoffbrückenbindungen zwischen den jeweils komplementären Nukleinsäurebasen ausgebildet werden. Die Hybridisierungstechnik dient zum Nachweis der strukturellen Verwandtschaft von Nukleinsäuren wie auch zur Isolierung spezifischer Nukleinsäuresequenzen aus einem Gemisch. Nachweis der strukturellen Verwandtschaft: Je nachdem, wie hoch der Anteil an korrekten komplementären Basenpaarungen in dem DNA-Hybrid ist, desto höher ist die für die Trennung in Einzelstränge benötigte Temperatur, weil sich mehr Wasserstoffbrücken ausgebildet haben, als bei einem Hybrid mit einem geringeren Anteil an korrekten Basenpaarungen. So lässt sich an der für die Trennung der hybridisierten DNA-Stränge nötigen Temperatur abschätzen.

Katalytische Aktivität vor allem Proteine (wenig RNA)

Als Katalyse wird die Veränderung der Reaktionsgeschwindigkeit einer chemischen Reaktion durch Beteiligung eines Katalysators bezeichnet. Der Katalysator geht aus der Gesamtreaktion wieder hervor und kann somit mehrere Katalysezyklen durchlaufen.


Zellkern

Als Zellkern bezeichnet man ein im Cytoplasma gelegenes, meist rundlich geformtes Organell der eukaryotischen Zelle. Der Zellkern bildet die Steuerzentrale der eukaryotischen Zelle: er enthält die chromosomale DNA und somit die Mehrzahl der Gene. Durch die Kernhülle, eine doppelte Membran, wird der Kern von Cytoplasma abgegrenzt


Cytoplasma

Als Zytoplasma (auch Cytoplasma) wird der die Zelle ausfüllende Inhalt bezeichnet.

Promotor

Promotor (Genetik), ein Abschnitt einer DNA mit Funktionen bei der Transkription eines Gens. Die wichtigste Eigenschaft eines Promoters ist die spezifische Wechselwirkung mit bestimmten DNA-bindenden Proteinen, welche den Start der Transkription des Gens durch die RNA-Polymerase vermitteln.


Transkriptionsfaktor

Ein Transkriptionsfaktor ist in der Molekularbiologie ein Protein, das für die Initiation der RNA-Polymerase bei der Transkription von Bedeutung ist. Transkriptionsfaktoren können an die DNA binden und den Promoter aktivieren oder reprimieren.

Transkriptionsfaktorbindungsstelle

...ist eine Stelle am Promoter (ca. 8 basenpaare lang), an die die Transkriptionsfaktoren binden können. Sie sind relativ schwer zu finden, da pro Genom ca. 1000 zufällige TFBS pro Transkriptionsfaktor zu erwarten sind. Selbst bei Reduktion der Untersuchung auf nur ca. 2kbp und ca. 30000 Genen sind noch 100 TBFS zufällig zu erwarten. Das ist in etwa soviel wie an Signalen erwartet wird, d.h. das Hintergrundrauschen der zufälligen TBFS ist sehr groß. Abhilfen: Beim Vergleich mit verwandten Arten kann wegen des phylogenetic footprintings gesehen werden, welche gleich sind und welche nicht. Auch liegen TFBS meist beieinander und in Regionen mit anderen Basenzusammensetzungen als der Rest des Genoms.

RNA Polymerase

Als RNA-Polymerasen bezeichnet man Enzyme, die die Synthese von Ribonucleinsäure-Molekülen (RNA) an der DNA oder an der RNA durch Transkription katalysieren.


Chromosom

Chromosomen sind Strukturen, die Gene und damit Erbinformationen enthalten. Sie bestehen aus DNA, die mit vielen Proteinen verpackt ist.

Gen

Ein Gen ist die funktionelle und physische Einheit der Vererbung. Gene sind Abschnitte auf der DNA; die meisten enthalten Information um ein spezifisches Protein zu machen.


Microarray

Alle autosomalen Zellen eines Organismus haben im Prinzip dieselbe Erbinformation in der DNA. Die Unterschiede zwischen Gewebe- und Zelltypen kommen u.A. durch höhere oder niedrigere Genexpression zustande (in Hautzellen wird z.B. Keratin sehr stark exprimiert). Um die Genexpression zu quantifizieren gibt es verschiedene Techniken. Früher konnte man nur wenige Gene gleichzeitig studieren; jetzt mittels Gen-Expressions Chips fast alle. Mittels Robotern werden Proben (in unserem Fall cDNA) auf einem Mikrochip (Glas oder Plastik) in einem genauen Muster aufgetragen (spotting), wobei auf jeden Punkt (Spot) tausende identische Proben kommen. Aus zwei verschiedenen Geweben wird cDNA gewonnen und mit zwei verschieden fluoreszierenden Farben markiert. Dann wird, wieder mit Robotern, genau gleich viel cDNA aus den beiden Geweben auf jedem Punkt zugegeben. Die komplementäre cDNA hybridisiert mit der Probe und bleibt kleben; der Rest wird abgewaschen. Mittels eines Lasers wird an jedem Punkt die Intensität der Fluoreszenz in beiden Kanälen ermittelt (scannen). Diese wird dann für die weitere Auswertung verwendet.

GO Annotation

Siehe Skript

Phylogenetic Footprinting

Mutationen verändern unwichtige Regionen auf der DNA, während wichtige Regionen erhalten bleiben.