Biodigitale Revolution: Halb Mensch, halb Festplatte

 

Amazon-Chef Jeff Bezos auf der Code Conference 2016: “Humans are unbelievably data efficient … unbelievably energy efficient … Humans are doing something fundamentally different from the current way that we do machine learning and machine intelligence.”

Bezos muss es wissen, denn er kennt die Probleme, die Maschinen in unserer Welt aktuell haben, ziemlich genau. Einsen und Nullen in der richtigen Reihenfolgen können heute in Maschinen erstaunliche Sachen machen, aber die Verarbeitungs- und Energieeffizienz sind, verglichen mit dem Menschen, eher schlecht.  Aber wie speichert der Mensch eigentlich Informationen? Was macht ihn so “verarbeitungseffizient”?

Photo by h heyerlein on Unsplash

Am Anfang steht bei allen Lebewesen die Desoxyribonukleinsäure (kurz DNS; englisch DNA), ein Molekül, wie ein Gartenschlauch, nur viel kleiner und irgendwie auch anders. Das Gartenschlauch-Molekül ist Träger der Erbinformation, also unseres gesamten Bauplans. Und auch wenn es sich manchmal anders anfühlt, das sind wirklich viele Daten.

Statt in Einsen und Nullen wie beim Rechner, speichert die DNA Erbinformationen in vier Basen: Thymin (T), Adenin (A), Cytosin (C) und Guanin (G). Die Lage dieser Basen zueinander im DNA-Molekül legt fest, wer wir sind. (Bei mir soll angeblich nur ein “G” zu Ryan Gosling fehlen).

Zeig her deine Basen

Genomentschlüsselung, also das Aufdröseln (merken, Fachwort)  und Aufschreiben unserer gesamten chemischen Erbinformationen in digitaler Form, heißt heute Sequenzierung. Sie hat seit dem Jahr 2003 eine beispiellose Entwicklung hingelegt. Die Kosten für eine komplette Sequenzierung („Hallo, einmal DNA-Sequenzierung, bitte“) sind um den Faktor 300.000 gesunken. Zum Vergleich: Das wäre so, als würde eine 35-Quadratmeter-Eigentumswohnung in Berlin Mitte jetzt auf einmal so viel kosten, wie ein Bier mit Schraubverschluss bei Lidl.

Das Erfassen unser ganz persönlichen 3 Milliarden-Basenpaare ist also in kürzester Zeit unglaublich billig und für viele Menschen erschwinglich geworden .Damit ist diese unglaublich energieeffiziente und verarbeitungseffiziente Festplatte (unsere DNA) nicht mehr nur chemisch, sondern auch digital verfügbar.

Grundlagen: DNA ist Open Source

Das „Humane Genome Project“ publizierte im Jahr 2001 zum ersten Mal die persönliche Basen-Sequenz eines Menschen (zeitgleich mit der US-amerikanischen Firma Celera Genomics). Doch nicht nur das: Die zu 90% vollständige Sequenz aller drei Milliarden Basenpaare des menschlichen Genoms wurde parallel dazu auch frei zugänglich im Internet veröffentlicht. Der erste Mensch war somit mit all seinen Bestandteilen als Open Source verfügbar (und wir machen uns Sorgen übers Datensammeln bei Facebook und Google). Damit begann sozusagen die Digitalisierung des menschlichen Erbguts.

Bevor unsere DNA aber leichter zu beschaffen war als ein Satz neuer Wohnungsschlüssel, mussten zunächst einige biotechnologische Wunder und Revolutionen vollbracht werden (Manche Leute machen halt statt Netflix lieber solche Sachen): 2001 beispielsweise kostete diese eine oben genannte DNA-Sequenzierung 2,7 Milliarden US-Dollar und der öffentlich finanzierte internationale Forschungsverbund hatte daran seit 1990 gearbeitet. Nettoarbeitszeit also 11 Jahre. Der Meilenstein schien damals ein Endpunkt zu sein, frei nach dem Motto: “Erster!” Doch die Bedeutung als Endpunkt war weit geringer, als die Bedeutung als Startpunkt.

Fünf Jahre später – 2006 – kostete die Entzifferung des Erbguts noch eine Million US-Dollar, 2008 war sie für 100.000 US-Dollar zu haben und 2014 fielen die Kosten für eine Analyse des menschlichen Genoms zum Beispiel bei der Firma Illumina  auf 1000 Dollar. Dauer der Sequenzierung? Etwa 26 Stunden.

Eine FASTQ-Datei der 3 Milliarden Basenpaare aus einem Sequenzer von Ilumina ist ungefähr 200 Gigabyte schwer (Hey, ich passe noch nicht auf mein iPhone!). Moderne Sequenzierungstechnik kann Hunderte von Millionen von DNA-Strängen gleichzeitig verarbeiten, also lesen und in digitale Informationen schreiben. Die Bedeutung dieser Entwicklung wird klar, wenn man bedenkt, dass die DNA quasi unser Betriebssystem ist. Große Datenbanken, die diese Informationen speichern, sind frei zugänglich, um Forschung zu ermöglichen. Wir sind Open Source.

“Habe ich da kostenlos gehört?”

Die Entwicklungsgeschwindigkeit des Sequenzierens stellt seit 2008 sogar Moore’s Gesetz in den Schatten. Heute werden Preise um die 100 Dollar diskutiert und bestimmt gibt’s irgendwo Mengenrabatt für die ganze Familie oder eine Groupon-Aktion mit Same-Day-Delivery. Die Sequenzierung unserer DNA wird also aller Voraussicht nach in den nächsten Jahren nahezu kostenlos werden.

Und wenn etwas so gut wie kostenlos und zudem noch wahnsinnig “verarbeitungseffizient” ist, können doch die Konzerne gar nicht so weit weg sein: Durch die millionenfache Aufdröselung unserer DNA bekam die Menschheit langsam ein Bild von der exakten Funktionsweise eben dieser. Heute ist man sogar über das pure Manipulieren schon lange hinaus. Inzwischen wird unsere DNA von Maschinen ausgelesen, gespeichert, bearbeitet oder eben auch geschrieben. Damit wird die Biotechnologie unmittelbar Gegenstand der Digitalisierung im industriellen Sinn. Massendatenanalyse, maschinelles Lernen und künstliche Intelligenz werden in Zukunft direkt mit den Daten arbeiten, die uns zu Menschen machen. Die Weichen für die biodigitale Revolution werden in diesen Monaten gestellt.

DNA-Betriebssystem ohne Software ist wie iPhone ohne Apps

Open Source, (der Ansatz etwas kostenlos zur Verfügung zu stellen, was intuitiv zu wertvoll dafür erscheint) hat schon einmal im Bereich der proprietären Software für einen unglaublichen Innovationsschub gesorgt. Will Zeng von Rigetti Computing, die sich auf das Programmieren von Software für einen Quantencomputer spezialisiert haben, sagt dazu: „It is important that all these tools are open source. Such a model was not available at the dawn of digital computing, but its power to speed innovation, as with Linux in the early days of the web, is essential for the quantum-programming community to grow quickly.“

Doch die Entwicklung von Software für neue Systeme, egal ob iPad, Quantencomputer oder DNA, erfordert nicht nur ein Betriebssystem. Wir müssen die Funktionalitäten verstehen, die dieses System hat. Und wir brauchen eine Sprache, in der wir diese Funktionalitäten ansprechen können (wie den Home-Button beim iPad, nur das jetzt halt um menschliche DNA geht. Logisch, oder?)

Diese Sprache wurde seit Anfang der 90er Jahren entwickelt. 2012 formulierten gleich mehrere Forscher, wie Jennifer Doudna, Emanuelle Charpentier und Virginijus Siksnys, die Lösung: CRISPR/Cas9. Das ist ein Verfahren, das es möglich macht die DNA an frei wählbaren Punkten sehr genau zu verändern. Bei TED erklärt Jennifer selbst sehr schön, wie es geht.

Einer von den Dreien kriegt bestimmt mal den Nobelpreis.

Die Entdeckung des CRISPR-Cas9-Enzym-Mechanismus, machte es möglich, Zellen und Organismen aus allen Lebensbereichen sehr genau zu modifizieren (ja, Genmanipulation, das böse Wort), also digital geplante Änderungen chemisch umzusetzen. Virginijus Siksnys ließ sein Verfahren von DuPont 2015 patentieren. Emanuelle Charpentier leitet heute die Abteilung für Regulation in der Infektionsbiologie am Max-Planck-Institut für Infektionsbiologie in Berlin.

“Crispr-Cas9 is like software for the DNA”, sagt Jennifer Doudna, die als Professorin in Berkley arbeitet.

Mit CRISPR-Cas9 gibt es jetzt also eine Sprache zum Codieren neuer Informationen in einer DNA. Das Problem: keiner weiß, was unser DNA uns eigentlich sagen will. Die Funktionalitäten unseres Betriebssystems sind ziemlich unbekannt. Deshalb ist die Welt der DNA-Sequenzierung und Bearbeitung aktuell auch nicht im Bereich Biologie ganz weit vorn, sondern im Bereich der digitalen Technologien. Die ersten Anwendungen versuchen, Funktionalitäten aus der digitalen Welt in einer DNA abzulegen. Also statt bestehende DNA zu bearbeiten und zu modifizieren, einfach eine leere DNA mit Einsen und Nullen und der Hilfe unserer vier Basen zu beschreiben. Wie einen USB-Stick. Und das funktioniert.

Ihr Mensch wird formatiert. Bitte haben Sie einen Moment Geduld.

Die meisten Daten werden heute klassischerweise magnetisch oder auf optische Medien gespeichert. Die dichteste Form der Lagerung, die heute im Handel erhältlich ist, liegt bei etwa 10 GB / mm3. Die Speicherung von Zettabytes von Daten würde so, trotz weiterer Verbesserungen, noch immer Millionen von Einheiten benötigen. Das kosten einfach enorm viel Platz und Datencenter sind defacto riesengroße Hallen voll mit Servern.

Und Daten sind ja quasi das Erdöl der Digitalisierung – wir werden Massen davon benötigen, um künstliche Intelligenzen, neuronale Netze usw. aufbauen zu können. Sie sind der Treiber der Digitalisierung schlechthin. Da darf man sich schon die Frage stellen: “Wo lassen wir das ganze Zeug?”

Bei der Google Cloud-Next-Konferenz in San Francisco im März 2017 ließ das Unternehmen wissen, dass es in den vergangenen drei Jahren fast 30 Milliarden Dollar für Rechenzentren ausgegeben hat. Zum Vergleich: Das ist pro Jahr mehr als doppelt soviel, wie in Deutschland von allen Pharma-Firmen zusammen für Pharmaforschung ausgegeben wird. Die wenden nach eigenen Angaben pro Jahr rund 5,4 Milliarden Euro für Forschung und Entwicklung in Deutschland auf (Stand 2015). Das beides viel miteinander zu tun hat, wird nun deutlich. Eine Speicherlösung, die billiger und kleiner ist, weniger Energie verbraucht und haltbarer ist, hätte ein gewaltiges Marktpotential.

Heutige Speichersysteme sind nämlich nicht nur groß und ineffizient, sondern auch nicht haltbar genug. Rotierende Scheiben sind für eine Nutzung zwischen 3 und 5 Jahren ausgelegt, Magnetbänder für ca. 10 bis 30 Jahre. Langzeitarchivierungen erfordern außerdem Aktualisierungen, um beschädigte Daten, fehlerhafte Einheiten und Technologie zu ersetzen.

Und hier kommt wieder die DNA ins Spiel: Synthetische DNA-Sequenzen könnte ein Medium für die digitale Datenspeicherung sein. DNA ist extrem dicht beschreibbar und hat eine theoretische Speicherdichte über 1 EB / mm3 (EB = Exabyte), also mehr als achtmal so viel, wie aktuelle Speichertechnologien, die Lagerung kostet wenig Energie und die Halbwertszeit liegt bei über 500 Jahren in rauen Umgebungen. Das klingt vielversprechend (Oder nach “Matrix”, je nachdem wie man es sieht).

Außerdem hat  DNA-basierte Speicherung auch den Vorteil der ewigen Relevanz: solange es DNA-basiertes Leben gibt (hoffentlich noch ein paar Jahre), gibt es gute Gründe DNA zu lesen – und zu manipulieren.

Kaspersky meldet 6 Angriffe auf Ihr Genom

Im Labor ist die Speicherung von Informationen in DNA-Material bereits gelungen. Die Washington University und Microsoft Research haben mit ihrem Projekt gezeigt, warum sich die schnelle Entwicklung der Informationstechnologie auch auf unser genetisches Material erstrecken wird: “DNA-based storage has the potential to be the ultimate archival storage solution: it is extremely dense and durable.”

Biotechologie und Digitalisierung wachsen schnell zusammen –  Damit gelten auch ganz ähnliche Bedrohungsszenarien. Denn für alle Schritten des Prozesses werden Computer benötigt (Alarm!).

Forscher an der Universität Washington, haben deshalb einen Computervirus in eine DNA geschrieben und so einen DNA-Sequenzer gekapert (Klarer Fall von “Weil sie es können”). Sie wollten zeigen, welche neuen Sicherheitsrisiken in der Interaktion zwischen biomolekularen Informationen und den Computersystemen, die sie analysieren, möglich sind. Tadayoshi Kohno, Professor für Informatik an der University of Washington leitete das Projekt: „Wenn ein Gegner die Kontrolle über die Daten hat, die ein Computer verarbeitet, kann er auch den Computer übernehmen. Wenn man sich die Sicherheit von informationsverarbeitenden, biologischen Systemen ansieht, muss man nicht nur Netzwerkverbindung, USB-Laufwerk und den Benutzer an der Tastatur bedenken, sondern auch die Informationen selber, die in der DNA gespeichert sind, die die Systeme sequenzieren.“

Um die Malware zu machen, übersetzte das Team also einen einfachen Computerbefehl in eine kurze Strecke von 176 DNA-Buchstaben (A, G, C und T – ihr erinnert euch). Nachdem sie sich reichlich Kopien der manipulierten DNA von einem Labor für $ 89 hatten machen lassen, fütterten sie die Stränge in eine Sequenziermaschine (Stellt ihr euch das auch so witzig vor?). Der Sequenzierer laß die Genbuchstaben und speicherte sie als Binärziffern 0 und 1. Das Ergebnis war ein Stück Angriffssoftware.

Fazit: Viva la biodigitale Revolution!

Das klappt natürlich nur im Labor und mit viel gutem Zureden. DNA-basiertes Hacking gibt es in der wirklichen Welt noch nicht (und entsprechend qualifiziertes Personal muss man auch erstmal finden).

Aber auch ohne Hacker: die Verwendung von DNA für die Handhabung von Computer-Informationen wird langsam Realität, sagt auch Seth Shipman, ein Mitglied des Harvard-Teams, das vor kurzem ein Video in einer DNA-Probe codierte: „Wofür wir dieses System verwendet wollen, ist nicht um am Ende Informationen hinein zu schreiben, die wir bereits haben, sondern um einen Weg zu haben, um mit diesen Zellen loszugehen und Informationen zu sammeln, zu denen wir bisher keinen Zugang haben“, sagt Shipman. „Wenn wir mit ihnen Daten sammeln könnten und diese Daten in ihrem Genom speichern könnten, dann hätten wir Zugang zu völlig neuen Arten von Informationen.“

Die Schnittstelle zwischen molekularer Biologie und digitaler Datenverarbeitung ist offen, nun wird sie auch genutzt werden. (Denkt noch jemand an die Büchse der Pandora?).

Versprochen werden Anwendungen in der personalisierten Medizin, also zum Beispiel bei Erbkrankheiten. Nichts davon gibt es bisher und ich glaube die Entwicklung dieser All-in-One-Gen-Lösungen wird lange dauern. Die Fortschritte von DNA als massentauglichem Informationsspeicher in Hybridsystemen könnten uns dagegen schon bald überraschen, wenn Jeff Bezos das Geld nicht ausgeht.

Und dann gibt es auch für Katastrophenforscher neue Szenarien – zum Beispiel Viren, die in jeden Menschen ein komplettes Helene Fischer-Album hinein-sequenzieren.

Redaktion: Florian Tennstedt / Lektorat: Marvin Hintze

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.