国产麻豆精品福利在线观看,亚洲人亚洲精品成人网站,亚洲熟妇无码AV另类VR影视,欧美A级毛欧美1级A大片免费播放

您的位置:首頁 > 區(qū)塊鏈 >

區(qū)塊鏈對基因測序行業(yè)產(chǎn)生重塑的作用

2018-11-28 15:28:20 來源: 藍(lán)狐筆記

基因測序行業(yè)在近二十年的時間里,發(fā)生了巨大的變化,其中一個最讓人吃驚的變化是它的測序成本大幅下降。2001年,人類基因組完成測序,耗資

區(qū)塊鏈如何重塑基因測序行業(yè)?

基因測序行業(yè)在近二十年的時間里,發(fā)生了巨大的變化,其中一個最讓人吃驚的變化是它的測序成本大幅下降。2001年,人類基因組完成測序,耗資高達(dá)30億美元,而現(xiàn)在成本降至1000美元,隨著時間的推移,甚至有可能降低到100美元以下。

如此幅度的成本下降,意味著大規(guī)模人群采用的條件已經(jīng)初步具備。那問題來了,就算是價格普通人可以負(fù)擔(dān),但對于人們來說,為什么要去做基因測序?目前看有幾個好處:一是便于更好做疾病診斷;二是做疾病的提前預(yù)防,通過基因測序發(fā)現(xiàn)患某些病的概率較高,可以提前采取措施。如好萊塢明星安吉麗娜·朱莉進行基因測序之后,發(fā)現(xiàn)自己有易患乳腺癌的基因,因此采取措施提前切掉乳腺。(當(dāng)然,從科學(xué)角度,這并不是說一定需要采取這樣的措施,或者采取這樣的措施之后就一定能解決問題,僅目前來說,這里提供了一個可供選擇的預(yù)防方案。);三是有助于創(chuàng)建個性化治療方案。

這是從普通個人來說的直接好處,從行業(yè)發(fā)展的角度,或者從整體人類利益的角度,如果通過某種方式,能實現(xiàn)把基因組數(shù)據(jù)共享給研究者,這對研究人員找出規(guī)律,提供個性化保健方案、治療方案或研發(fā)新藥等都有幫助。

如果實現(xiàn)了基因組數(shù)據(jù)共享,這里有機會誕生一個數(shù)十億美金以上的基因組數(shù)據(jù)市場。不管是基因組數(shù)據(jù)的所有者、還是基因組數(shù)據(jù)的需求方,都會從中獲益。

那么,如何來創(chuàng)建基因測序的交易市場?它需要解決哪些問題才有機會真正創(chuàng)建?這就是本文試圖闡述的地方。

本文以Nebula Genomics為案例進行闡述。這也是藍(lán)狐筆記最近關(guān)注的一個試圖通過借助區(qū)塊鏈技術(shù)和模式來創(chuàng)造基因測序市場的案例。

NebulaGenomics:創(chuàng)造基因測序市場的夢想

Nebula Genomics為了推動基因測序行業(yè)的發(fā)展,試圖在多個方面進行探索。

首先是Nebula Genomics要繼續(xù)推動基因測序成本的顯著降低,唯有如此,才能讓更多普通老百姓參與進來,參與的人越多,意味著基因組的數(shù)據(jù)越多。

其次,大多數(shù)人對新事物,尤其是基因測序這樣涉及個人隱私和安全的事情會比較在意,也會有疑慮,如果不能解決普通人的擔(dān)憂,那么,即使價格便宜,也會遇到走向主流人群采用的障礙,所以,Nebula Genomics會優(yōu)先考慮提高基因組數(shù)據(jù)的安全和保護。

最后,這個行業(yè)存在著基因組數(shù)據(jù)的明顯需求者。但是,目前這些需求者能夠得到的基因組數(shù)據(jù)少之又少。Nebula Genomics也希望讓基因組數(shù)據(jù)的買家能夠更有效率獲取更多的數(shù)據(jù)。

基于以上明晰的思路,Nebula Genomics試圖通過區(qū)塊鏈技術(shù)來解決問題,以一種去中心化、加密的方式來達(dá)成目標(biāo)。

基因組數(shù)據(jù)交易市場為什么有機會?

先來看看什么是基因組數(shù)據(jù)。藍(lán)狐筆記參考了相關(guān)基因組資料,先給大家簡要分享關(guān)于基因組數(shù)據(jù)的基本概念。

DNA(脫氧核糖核酸)是一種鏈狀分子,它編碼每個生物體藍(lán)圖。DNA由四個構(gòu)建塊組成,其鏈狀分子的長度可變。DNA的構(gòu)建區(qū)塊由字母表示,包括A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鳥嘌呤)。細(xì)胞中發(fā)現(xiàn)的DNA總數(shù)稱之為它的基因組?;騽t是DNA的序列,它可以編碼蛋白質(zhì)生產(chǎn)指令,是多功能的分子機器。人類的基因組大約有64億個字母。人類基因組中的大多數(shù)功能序列還是未知世界。

那么,為什么要對DNA進行測序?

科學(xué)家在研究過程中發(fā)現(xiàn)了DNA的功能和結(jié)構(gòu),他們試圖通過讀取更多的DNA序列,研究它們,找出規(guī)律。前面也提到,一開始基因測序成本很高,幾乎不可能用于主流人群。但,該領(lǐng)域的技術(shù)發(fā)展迅速。新一代的測序機器可以實現(xiàn)對數(shù)億分子的并行讀取。新技術(shù)的進步讓DNA測序成本極速下降。另外,通過蛋白質(zhì)編碼基因組區(qū)域的靶向測序也利于降低成本。

目前市面上也有不少的個人基因測序公司,比如Ancestry和23andMe公司。兩家公司使用基于DNA微陣列的基因分型來實現(xiàn)基因檢測。不過它不是對連續(xù)的DNA序列進行測序,而是以大致規(guī)律的間隔來識別單個字母。它們采用的方法無法全面識別字母,它們目前產(chǎn)生的數(shù)據(jù)對于基因組數(shù)據(jù)擁有者和研究者來說,價值相對有限。

從全基因測序數(shù)據(jù)中,個人可以全面了解個人基因組成。研究者也能在更多數(shù)據(jù)中,不斷更新迭代研究結(jié)果。全基因測序數(shù)據(jù)對研究人員價值更大。比如說,全基因測序是鑒定非編碼DNA變體的唯一方法。在現(xiàn)實中,超過90%的臨床重要的DNA部分都落在非編碼區(qū)域。這也意味著,全基因測序有可能是發(fā)現(xiàn)治療靶標(biāo)的主要手段。目前來看,測序模式對于微陣列的基因分型模式,有它的優(yōu)點之處。如果能在實踐中證明更有效,那么,它在基因組市場上,會產(chǎn)生很重大的影響。

對于個人來說,好處是什么?

前文也簡要提及了基因組測序?qū)€人的可能潛在好處。下面更詳細(xì)地闡述其好處。

地球上任何兩個人的基因組中有99.9%是相同的。而剩余的0.1%則決定了每個人的差異。0.1%的差異中有超過400萬的基因變體,這些變體產(chǎn)生了人與人之間的不同,包括身體特征、性格以及疾病傾向。

這也就是說,如果完成每個人的全基因測序,就可以找出每個人獨一無二的地方。它可以為健康相關(guān)的事情做出最佳選擇,包括減肥、鍛煉、醫(yī)療、生育等。如果一旦成為現(xiàn)實,這意味著個性化的精確醫(yī)療保健時代成為可能,可以根據(jù)每個人的基因組特性,提前做好預(yù)防措施。

醫(yī)療處方上來看,F(xiàn)DA批準(zhǔn)的藥物中,有超過7%的藥物會受基因變體的影響,導(dǎo)致一些患者會出現(xiàn)對藥物產(chǎn)生不良反應(yīng)。如果有了全基因測序,醫(yī)生可以向患者開出更合適的藥物和更合適的劑量。比如有一種藥物叫warfarin,它是一種常用的血液稀釋藥物,但它可能會導(dǎo)致部分患者內(nèi)部出血,這部分患者往往是攜帶了增強其血液稀釋效應(yīng)的基因變體。

預(yù)防性治療來看,大約有2%的人在高度“可操作的”基因中攜帶早發(fā)性致病變異體。這些基因跟存在治療的病理相關(guān),可能改變個體的結(jié)果。比如,BRCA1和BRCA2基因的突變會顯著增加乳腺癌和卵巢癌的風(fēng)險。從預(yù)防性的角度,它會建議具有這些基因變異的婦女經(jīng)常接受篩查。

對于大多數(shù)人來說,基因變體中攜帶有致命性的變體不多,但仍有問題。比如脂肪肝疾病影響了8000萬美國人,但它有時候很難被發(fā)現(xiàn),超過50%的人口基因變異增加脂肪肝并發(fā)癥的風(fēng)險。

優(yōu)生優(yōu)育方面來說,兩位計劃生孩子的父母可以進行基因測序,以此發(fā)現(xiàn)他們生下來的孩子可能的健康情況。通過父母雙方遺傳的疾病相關(guān)的變體,導(dǎo)致后代的患病風(fēng)險。目前看,全世界的5%人口中患有遺傳性疾病,這些絕大多數(shù)病癥都從上一輩遺傳來的。這些都是可以通過全基因測序進行檢測。

減肥方面,目前已經(jīng)發(fā)現(xiàn)基因變體會影響減肥策略的有效性。這意味著,不同人有不同的有效減肥策略,可以根據(jù)不同人的基因變體制定個性化的減肥方案。

體育鍛煉方面,基因變體也與體育成績相關(guān),包括耐力、肌肉量、運動受傷風(fēng)險等。比如,韌帶撕裂的風(fēng)險跟膠原蛋白基因的變體相關(guān),對于某些基因變體的人來說,拳擊等運動中的頭部擊打會顯著增加腦部疾病的風(fēng)險。這也意味著,不同的基因變體,對于不同人的運動機能影響是不同的。

這也就能理解,為什么在運動場上,有些人可以長達(dá)十年以上的持續(xù)高水平,如足球場上的梅西,而還有些人則是玻璃體質(zhì),雖然天賦很高,但容易受傷。其中部分原因也跟每個人的基因變體相關(guān)。如果進行了基因變體的測序,一是可以測試個體有沒有持續(xù)的競技水平可能,二是也可以針對性的進行預(yù)防和改善。

最后一個是基因編輯方面。基因工程首先要鑒定出導(dǎo)致身體特征和疾病易感性的基因變體。然后在此基礎(chǔ)上進行基因組的編輯。比如,讓肌肉生長抑制素基因失去活力有可能可以治愈退化肌肉疾病。

從產(chǎn)業(yè)需求來看,產(chǎn)業(yè)為什么有這么強的動力來獲取基因組數(shù)據(jù)和表型數(shù)據(jù)?

研究人員和生物公司、制藥公司都受制于基因組數(shù)據(jù)缺乏、數(shù)據(jù)質(zhì)量低、數(shù)據(jù)采集效率低、數(shù)據(jù)獲取成本高等因素影響。

基因組數(shù)據(jù)的可用性還很低。原因是因為目前的數(shù)據(jù)樣太小,很少有人做過全基因組的測序。如果沒有大的基因組數(shù)據(jù)集,就比較難建立基因變體和性狀之間的關(guān)聯(lián)性。不僅是數(shù)據(jù),還需要通過機器學(xué)習(xí)來研究,比如深度學(xué)習(xí),通過大量的模型訓(xùn)練,獲得真正有意義的結(jié)果。目前看,基因組學(xué)領(lǐng)域還很難獲得AI學(xué)習(xí)所需的足夠數(shù)據(jù)量。

表型數(shù)據(jù)是指包括所有個人特征在內(nèi)的信息,也包括病史等。表型數(shù)據(jù)和基因組數(shù)據(jù)一起用來鑒定基因變體和性狀之間的關(guān)聯(lián)。但目前來看,表型數(shù)據(jù)有幾個問題:一是數(shù)據(jù)需求方對隨機數(shù)據(jù)集不感興趣,而對具有特定表型的個體數(shù)據(jù)集感興趣,而是數(shù)據(jù)購買者會從有某些表型特征的個人中獲取數(shù)據(jù)。其次,基因組數(shù)據(jù)的擁有者需要有意愿來提供表型數(shù)據(jù),沒有表型數(shù)據(jù),只有基因組數(shù)據(jù)就沒多大作用。最后,目前收集的表型數(shù)據(jù)質(zhì)量不穩(wěn)定,通過中間人收集存在問題。

從數(shù)據(jù)采集看,效率低下。目前現(xiàn)狀是,制藥和生物技術(shù)公司從一些非營利或營利組織獲取基因組的數(shù)據(jù)。但整個購買流程效率低下,很難滿足需求。一是數(shù)據(jù)采購流程沒有自動化,需要簽訂合同、付款、傳輸數(shù)據(jù)等,這些人工勞動對數(shù)據(jù)采集來說,不夠高效。二是,不同來源的基因組和表型數(shù)據(jù)通常采用不同的數(shù)據(jù)格式編碼,這讓標(biāo)準(zhǔn)化不同數(shù)據(jù)集變得非常耗時。這些問題都是生物和制藥技術(shù)公司頭疼的問題。

基因組大數(shù)據(jù)還不是真正的大數(shù)據(jù),很難用作機器學(xué)習(xí),也不利于后續(xù)的研究發(fā)展。據(jù)估計,目前人類完成基因測序的人口才100萬人,0.02%的人口都不到。即便如此,由于單個人的基因測序通常會產(chǎn)生很大的數(shù)據(jù)量,大約能達(dá)到200千兆字節(jié),必須使用計算密集型計算處理。這意味著如果未來有上億人口進行基因測序的話,會面臨很大的挑戰(zhàn)。一是需要大量的存儲空間來存儲基因組的數(shù)據(jù);二是網(wǎng)絡(luò)傳輸?shù)乃俣纫矔?shù)據(jù)共享造成困難;三是基因組大數(shù)據(jù)的處理和分析需要大量的算力支持。

Nebula網(wǎng)絡(luò)存在的目的就是要解決以上的問題。

Nebula模式重塑基因測序行業(yè)

Nebula模型跟傳統(tǒng)模式完全不同。它試圖通過去中心化的模式來重塑基因測序行業(yè),它構(gòu)建的基因組數(shù)據(jù)交易市場,在數(shù)據(jù)掌控權(quán)、數(shù)據(jù)的隱私和安全保護、經(jīng)濟體系、大數(shù)據(jù)的準(zhǔn)備等方面都有自己的解決方案。

區(qū)塊鏈如何重塑基因測序行業(yè)?

(傳統(tǒng)模式)

首先是數(shù)據(jù)的控制權(quán)和安全保護。

區(qū)塊鏈如何重塑基因測序行業(yè)?

(Nebula模式)

在傳統(tǒng)的基因測序行業(yè)的商業(yè)模式中,人們不僅給基因測序公司付費以獲取分析結(jié)果,同時,這些公司還會把這些基因組數(shù)據(jù)進行二次獲利,把它們賣給需要這些數(shù)據(jù)的制藥和生物技術(shù)公司。

Nebula模式則不同,個人付費給測序服務(wù)提供者之后,測序的數(shù)據(jù)歸個人所有(將來測序儀器如果便宜,個人也可以自行測序)。生物和制藥技術(shù)公司如果要獲得基因測序數(shù)據(jù),必須向用戶購買,而不是向之前的測序公司購買。這改變了基因測序數(shù)據(jù)的歸屬權(quán)問題。

同時基因測序數(shù)據(jù)還通過Nebula網(wǎng)絡(luò)獲得保護。個人的數(shù)據(jù)由個人存儲,包括個人基因測序和表型數(shù)據(jù)。數(shù)據(jù)所有人控制訪問的權(quán)限。此外,Nebula還使用英特爾的軟件保護擴展(SGX)和同態(tài)加密對共享數(shù)據(jù)進行加密和安全分析。

為了保護個人的隱私,在數(shù)據(jù)的買賣過程中,數(shù)據(jù)所有者是匿名的,而數(shù)據(jù)購買者必須是透明的。所有的數(shù)據(jù)交易記錄都不可變地存儲在Nebula區(qū)塊鏈中。

其次,token模式而非法幣模式。

在傳統(tǒng)的模式中,個人向基因測序公司支付法幣以獲得測序結(jié)果,生物和制藥技術(shù)公司也是向基因測序公司支付法幣以獲得研究數(shù)據(jù)。

而Nebula的token經(jīng)濟模式中,形成了Nebula內(nèi)部的一套經(jīng)濟體系。

區(qū)塊鏈如何重塑基因測序行業(yè)?

從上圖可以看到Nebula的token主要用于內(nèi)部經(jīng)濟體系的循環(huán)。個人在Nebula測序的設(shè)施中獲得個人的基因測序服務(wù),需要用Nebula代幣支付,而生物和制藥技術(shù)公司也需要用Nebula代幣來購買基因組數(shù)據(jù)和表型數(shù)據(jù)。

從這個模型中,Nebula代幣的價值增長主要根源于整個Nebula網(wǎng)絡(luò)的增長。它通過降低測序成本,吸引更多個體加入測序,而同時行業(yè)的需求也在增加,進一步降低測序成本。而隨著基因組數(shù)據(jù)的增加,能夠給用戶帶來更多的好處,比如疾病預(yù)防、減肥、生育管理等,這會進一步提升對基因組數(shù)據(jù)和表型數(shù)據(jù)的需求。而這個Nebula的經(jīng)濟體系中,流通的是Nebula代幣,這個代幣的價值會隨著Nebula網(wǎng)絡(luò)整體價值的提升而增加。

再次,基因測序成本更低。

Nebula通過提供基因測序數(shù)據(jù)交易市場極大降低測序成本。為什么這么說?一是沒有基因測序數(shù)據(jù)的個人可以加入Nebula網(wǎng)絡(luò)支付token后獲得測序數(shù)據(jù)。由于生物和制藥技術(shù)公司對有表型的個體感興趣,這樣,這些公司可以提供補貼,降低基因測序成本。同時,隨著參與測序的機構(gòu)越多,需求也越大,也許某一天,用戶可以免費獲得基因測序的服務(wù)。同時,已有基因測序數(shù)據(jù)的用戶也可以通過加入Nebula網(wǎng)絡(luò)進行數(shù)據(jù)的售賣獲得收益。

第四,數(shù)據(jù)采集效率更高。

Nebula網(wǎng)絡(luò)通過基因測序市場推動用戶測序的意愿。尤其是它對用戶的疾病預(yù)防、減肥、優(yōu)生優(yōu)育等方面都有潛在的積極意義。這導(dǎo)致用戶加入測序的意愿大增。

同時,通過Nebula網(wǎng)絡(luò)還可以解決數(shù)據(jù)孤島的問題。它通過去中心化的私有數(shù)據(jù)存儲方式來解決數(shù)據(jù)碎片化問題。所有擁有基因組數(shù)據(jù)的個人或組織都可在Nebula網(wǎng)絡(luò)上提供數(shù)據(jù),同時保留數(shù)據(jù)的所有權(quán)。

另外,數(shù)據(jù)需求方和提供者可以直接聯(lián)系,能夠有針對性獲得高質(zhì)量的表型數(shù)據(jù)?;贜ebula的智能合約的調(diào)查工具可以幫助數(shù)據(jù)購買者更高效的獲取目標(biāo)數(shù)據(jù)。Nebula網(wǎng)絡(luò)會提供基因組和表型數(shù)據(jù)的標(biāo)準(zhǔn)格式。最后,智能合約的有效應(yīng)用,也會促進數(shù)據(jù)采購的加速,自動簽署合同,自動付款和傳輸數(shù)據(jù),這都會讓比原來的人工過程高效很多。

最后,可為大數(shù)據(jù)爆發(fā)做好準(zhǔn)備。

鑒于基因組數(shù)據(jù)非常龐大,通過讓數(shù)據(jù)所有者存儲自己的數(shù)據(jù),解決了中心化數(shù)據(jù)存儲的問題。Nebula計劃使用可用的邊緣網(wǎng)絡(luò)存儲空間。此外,為了便于數(shù)據(jù)需求者計算基因組數(shù)據(jù),Nebula還引入特定的數(shù)據(jù)編碼格式,也方便基因組數(shù)據(jù)在網(wǎng)絡(luò)上快速傳輸。數(shù)據(jù)需求者可方便利用支持英特爾軟件保護擴展(SGX)的任何計算硬件資源,他們可以在Nebula Genomics提供的計算節(jié)點、買家自己的節(jié)點或其他第三方節(jié)點上分析數(shù)據(jù)。

Nebula網(wǎng)絡(luò):Blockstack平臺與Nebula區(qū)塊鏈

Nebula網(wǎng)絡(luò)建立于Blockstack平臺和以太坊驅(qū)動的Nebula區(qū)塊鏈上。那么,Nebula網(wǎng)絡(luò)由哪些節(jié)點組成?它的基因組數(shù)據(jù)是怎么來的?基因組測序數(shù)據(jù)是怎么處理的?又是如何存儲的?如何保證隱私和安全的?測序數(shù)據(jù)和表型數(shù)據(jù)的交易記錄會記錄在哪里?它后續(xù)會不會把測序過程也實現(xiàn)去中心化?

這些問題都是構(gòu)建真正可落地的基因組數(shù)據(jù)交易市場的重要問題。

區(qū)塊鏈如何重塑基因測序行業(yè)?

(Nebula網(wǎng)絡(luò))

首先來看Nebula網(wǎng)絡(luò)的節(jié)點。

Nebula網(wǎng)絡(luò)包括數(shù)據(jù)所有者節(jié)點、數(shù)據(jù)購買者節(jié)點、安全計算節(jié)點、Nebula服務(wù)器。數(shù)據(jù)所有者節(jié)點包括兩部分主體,一是想要共享基因組數(shù)據(jù)和表型數(shù)據(jù)的個人,二是擁有基因組數(shù)據(jù)庫的組織。

數(shù)據(jù)購買者節(jié)點一般是制藥和生物技術(shù)公司。他們會使用Nebula代幣從數(shù)據(jù)所有者中購買基因組和表型數(shù)據(jù),并分析安全計算節(jié)點上的數(shù)據(jù)。完全計算節(jié)點運行Arvados生物信息開源平臺以計算基因組數(shù)據(jù)。安全計算節(jié)點可以由Nebula Genomics,數(shù)據(jù)購買者或其他第三方操作。

Nebula服務(wù)器處理主要是處理Nebula測序設(shè)施中生成的測序數(shù)據(jù),同時驗證來自外部的基因組數(shù)據(jù),驗證數(shù)據(jù)購買者的身份。

其次,Nebula網(wǎng)絡(luò)的基因組數(shù)據(jù)是怎么來的?

Nebula測序設(shè)施預(yù)計使用下一代的DNA測序技術(shù)。新一代測序技術(shù)會產(chǎn)生數(shù)十億的約250個字母的短讀數(shù)。一個人的基因測序文件大概約10個測序讀數(shù),大小達(dá)到150~200千兆字節(jié)左右。Nebula Genomics計劃與Veritas Genetics合作測序。通過與Veritas合作,Nebula Genomics可以符合監(jiān)管,也不用擔(dān)負(fù)“得到認(rèn)證的DNA測序設(shè)施”的相關(guān)運營成本。

除了使用Nebula測序設(shè)施產(chǎn)生的基因組數(shù)據(jù),其他來源的數(shù)據(jù)也可以在Nebula網(wǎng)絡(luò)上出現(xiàn)。比如數(shù)據(jù)所有人使用Nebula的工具將它的數(shù)據(jù)轉(zhuǎn)為基因組拼塊格式。Nebula服務(wù)器會驗證數(shù)據(jù)的真實性。數(shù)據(jù)所有者也需要提供真實性的證據(jù)。另外,在Nebula網(wǎng)絡(luò)上提供基因組數(shù)據(jù)集的組織則需要Nebula Genomics的工作人員的驗證。同時,數(shù)據(jù)所有者也可選擇在未經(jīng)驗證情況下提供數(shù)據(jù),由市場買家來決定是否愿意為這一類數(shù)據(jù)付費。

除了基因組數(shù)據(jù)之外,為了發(fā)揮數(shù)據(jù)的作用,也需要表型數(shù)據(jù)的配合。而表型數(shù)據(jù)的生成主要依賴于向數(shù)據(jù)所有者發(fā)布調(diào)查問卷。通過調(diào)查問卷反饋提供該個體的癥狀、處方藥物和診斷等。Nebula也在參與跨數(shù)據(jù)庫的表型數(shù)據(jù)標(biāo)準(zhǔn)相關(guān)工作。

再次,Nebula基因組數(shù)據(jù)是怎么處理的?

當(dāng)前在Nebula網(wǎng)絡(luò)上產(chǎn)生的測序數(shù)據(jù)將在Nebula服務(wù)器上處理。首先將測序讀數(shù)參考人類基因組,對比后重建基因組序列,之后標(biāo)識出基因變體。同時,為了實現(xiàn)快速傳輸,變體的編碼列表需要考慮節(jié)省空間。編碼方案還需要考慮支持有效計算,尤其是支持機器學(xué)習(xí)。Nebula將采用基因組拼接的編碼方案。

基因組被分成重疊的可變長度序列,每個拼接塊都由所包含測序的哈希摘要代表。所有拼塊位置中的拼塊變體都收集在拼塊庫中。它們會隨著新基因測序和新變體的發(fā)展不斷增加。個體基因組由測序的哈希數(shù)組代表。這些哈希數(shù)組會轉(zhuǎn)移到數(shù)據(jù)所有者節(jié)點,之后可共享給數(shù)據(jù)的需求者。這樣做的好處是可以實現(xiàn)快速的網(wǎng)絡(luò)傳輸,因為個體的基因組通過哈希數(shù)組來代表,大小只有10兆字節(jié)。

另外測序讀數(shù)文件也會傳輸給數(shù)據(jù)所有者節(jié)點,文件很大,約有150到200千兆字節(jié),但只需從Nebula服務(wù)器傳輸過去,一次即可。這些數(shù)據(jù)不會跟買家共享。一旦文件傳輸完成,所有數(shù)據(jù)會從Nebula服務(wù)器中刪除。

第四,基因組數(shù)據(jù)和表型數(shù)據(jù)是怎么存儲的?

數(shù)據(jù)存儲和訪問的控制會使用Blockstack平臺,平臺也可以構(gòu)建去中心化應(yīng)用。Blockstack存儲系統(tǒng)允許用戶選擇自己的存儲提供商,比如Dropbox,并管理其對數(shù)據(jù)的訪問。

Blockstack也支持?jǐn)?shù)據(jù)發(fā)現(xiàn),可實現(xiàn)表型注冊表。數(shù)據(jù)需求方可以查詢數(shù)據(jù)所有者節(jié)點,瀏覽過去的調(diào)查,識別參與過特定調(diào)查問卷的數(shù)據(jù)所有者。

由代表個人基因組的哈希數(shù)組引用的拼塊庫會存儲在公共的存儲中,比如IPFS或BitTorrent。所有Nebula網(wǎng)絡(luò)上的節(jié)點都能夠訪問拼塊庫。尤其是,計算節(jié)點進行數(shù)據(jù)分析時訪問拼塊庫。

第五,基因組數(shù)據(jù)如何實現(xiàn)安全計算的?

Nebula網(wǎng)絡(luò)目前使用Arvados生物信息開源平臺來處理和管理基因組和表型數(shù)據(jù)。這個平臺主要是為基因組和其他大規(guī)模生物醫(yī)學(xué)數(shù)據(jù)設(shè)計,包括IBM Watson等在內(nèi)的不少大型機構(gòu)客戶也在使用。同時,為了安全計算,Arvados在適用于安全計算節(jié)點上的英特爾軟件保護拓展(簡寫是SGX)區(qū)域內(nèi)運行。

SGX是一組指令代碼,可以擴展英特爾x86架構(gòu),并允許專用內(nèi)存區(qū)域的創(chuàng)建。其中代碼和數(shù)據(jù)是隔離的,并受到外部處理的保護。總之,英特爾軟件保護擴展(SGX)允許不受信任的第三方對私有數(shù)據(jù)進行安全的遠(yuǎn)程計算。它實現(xiàn)了安全計算,同時這些計算比同態(tài)加密數(shù)據(jù)計算和安全多方計算的效率要高。

此外,通過將SGX與同態(tài)加密的混合,可以加速特定的計算。在Nebula網(wǎng)絡(luò)中,數(shù)據(jù)所有者使用安全計算節(jié)點進行加密和共享個人基因組和表型數(shù)據(jù)。

不少生物信息計算的第一步是生成列聯(lián)表,包含基因組變體計數(shù)和相應(yīng)表型。列聯(lián)表計算僅需加法運算,可以使用加性同態(tài)加密方案執(zhí)行計算。首先,每個數(shù)據(jù)所有者節(jié)點使用加性同態(tài)加密方案加密值1或0,表示基因組變體存在或不存在。之后,計算節(jié)點會對SGX專用內(nèi)存區(qū)域之外的所有加密值求和。加密的求和可以在SGX專用內(nèi)存區(qū)域內(nèi)進行解密,執(zhí)行進一步計算。因此,加性同態(tài)加密可以將解密數(shù)量減少至一個。

由于使用SGX有兩個主要缺點。一是必須仔細(xì)設(shè)計軟件以實現(xiàn)在SGX專用內(nèi)存區(qū)域內(nèi)部運行,同時不會把私有數(shù)據(jù)泄漏。二是所有計算必須在英特爾CPU上執(zhí)行,意味著計算不能用GPU加速。但后續(xù)的機器學(xué)習(xí),需要從GPU加速中獲益。

為解決這個問題,Nebula采用了SGX專用內(nèi)存區(qū)域和GPU加速計算中的數(shù)據(jù)保護混合方法。數(shù)據(jù)會在SGX專用內(nèi)存區(qū)域中聚合和預(yù)處理,但是計算密集型的計算會在SGX專用內(nèi)存區(qū)域之外的GPU執(zhí)行。SGX專用內(nèi)存區(qū)域的預(yù)處理通過三種方式來保護數(shù)據(jù)的隱私。一是所有數(shù)據(jù)完全匿名化,SGX預(yù)處理隱藏輸入數(shù)據(jù)的來源。二是只聚合數(shù)據(jù)匯總,比如列聯(lián)表。哈希數(shù)組編碼所有基因組,它們不會被暴露出來。三是隨機噪聲會添加進入數(shù)據(jù),以增強安全。

SGX-GPU混合模型的還有一個好處是Arvados的復(fù)雜性可以保持在SGX專用內(nèi)存區(qū)域之外。這會極大減少工程量。

第六,Nebula網(wǎng)絡(luò)提供賣家隱私保護

以太坊區(qū)塊鏈為數(shù)據(jù)所有者節(jié)點提供一定程度匿名保護。網(wǎng)絡(luò)地址是加密標(biāo)識符,與任何個人信息無關(guān)。此外,對于買方需要進行驗證。從基因組數(shù)據(jù)的所有者角度,他們都想知道自己的數(shù)據(jù)賣給了誰,他們是不是靠譜。為了實現(xiàn)買家的透明,他們需要提供真實信息,并在法律上確定不能把數(shù)據(jù)分享給其他第三方。這些認(rèn)證工作由Nebula工作人員完成驗證。

第七,Nebula網(wǎng)絡(luò)的區(qū)塊鏈服務(wù)

Nebula基因組數(shù)據(jù)交易市場的所有交易記錄都會記錄在Nebula區(qū)塊鏈上,這是不可篡改的記錄。

Nebula將為合作伙伴提供測序設(shè)施,包括價格合理的全基因組測序服務(wù)。該服務(wù)可以使用Nebula代幣支付。同時,隨著DNA測序價格下降,還會變得更便宜。另外,數(shù)據(jù)購買者也可以補貼個人的測序成本。

此外,Nebula調(diào)查工具會使用以太坊區(qū)塊鏈的智能合約,可以讓數(shù)據(jù)購買者創(chuàng)建高度定制化的調(diào)查。比如可以向所有參與調(diào)查的人支付同樣的Nebula代幣獎勵,也可以根據(jù)不同的貢獻(xiàn)獎勵不同數(shù)量的代幣。

數(shù)據(jù)購買者也可以使用以太坊智能合約來購買個人基因組數(shù)據(jù)。數(shù)據(jù)所有者收到代幣支付之后,他們的加密基因組數(shù)據(jù)會傳送到安全計算節(jié)點進行計算。表型數(shù)據(jù)的購買也采用類似方式。

第八,基于Nebula網(wǎng)絡(luò)也會產(chǎn)生有價值的第三方應(yīng)用

跟其他的中心化的應(yīng)用程序平臺不同,Nebula采用去中心化的模式來匯聚基因組數(shù)據(jù)?;蚪M數(shù)據(jù)由個體用戶自己控制。

比如,數(shù)據(jù)所有者可以利用Nebula的基因變體解釋器進行個人基因組的數(shù)據(jù)解讀。Nebula的變體解釋器是基于Blockstack的分布式應(yīng)用,在用戶本地數(shù)據(jù)上執(zhí)行。Nebula最初版本的變體解釋器是基于Veritas的變體解釋器。這里還有一個正向循環(huán)的好處。隨著Nebula數(shù)據(jù)庫的增加,會發(fā)現(xiàn)更多基因和健康之間的關(guān)聯(lián)關(guān)系,這會讓Nebula的變體解釋器的表現(xiàn)越來越好。由此吸引更多人加入到Nebula的網(wǎng)絡(luò)。如果實現(xiàn)了這一點,這會成為一個自我增強的系統(tǒng)。

最后,Nebula對于測序本身也會采用去中心化模式嗎?

相比較于傳統(tǒng)模式,通過去中心化的數(shù)據(jù)存儲和安全計算,Nebula在基因組數(shù)據(jù)保護方面達(dá)成新的高度。但是,數(shù)據(jù)的生成依然是在中心化的測序設(shè)施中發(fā)生。如果測序設(shè)施的受到攻擊,基因組數(shù)據(jù)也有可能會被盜取。要避免這種風(fēng)險,唯一辦法是連測序本身也實現(xiàn)去中心化。

最理想的情況是,個人購買DNA測序機器自行測序,這樣就不用通過中心機構(gòu)的測序設(shè)施來完成測序。當(dāng)然,目前看,還不現(xiàn)實。因為當(dāng)前的DNA測序儀器很大,很貴,價值可達(dá)100萬美元,也不易操作,普通用戶很難承受。

當(dāng)然,技術(shù)也在發(fā)展,也許未來可能誕生手機一樣的DNA測序儀器,成本也能降至1000美元左右。但是,這需要時間。在過渡期內(nèi),Nebula Gemonics還會一直尋求最新技術(shù),幫助個人實現(xiàn)可負(fù)擔(dān)的基因測序。而最終的目標(biāo)就是超去中心化的測序模式發(fā)展。

結(jié)語

傳統(tǒng)的基因測序模式很難建立起真正的基因組數(shù)據(jù)交易市場。因為它很難解決基因組數(shù)據(jù)歸用戶所有的問題,無法調(diào)用用戶參與積極性,在獲取大規(guī)模數(shù)據(jù)方面存在天然的障礙。

而利用區(qū)塊鏈的去中心化模式,則帶來改變。以Nebula為例,它首先把基因組數(shù)據(jù)的所有權(quán)歸還給個體。其次,它構(gòu)建了能夠保護用戶數(shù)據(jù)的安全計算。再次,它充分利用智能合約、區(qū)塊鏈技術(shù)以及代幣體系。

這樣的結(jié)果是,Nebula的模式可以實現(xiàn)基因組數(shù)據(jù)的買家和賣家直接交易,跟傳統(tǒng)的模式不同,數(shù)據(jù)的買家和賣家之間的交易降低了成本。成本的降低導(dǎo)致基因組測序服務(wù)價格更加便宜,推動更多人參與進來。更多人參與進來,導(dǎo)致數(shù)據(jù)價值的提升,數(shù)據(jù)價值的提升能夠讓基因測序服務(wù)本身更有指導(dǎo)意義,包括對醫(yī)療、生育、減肥、保健等方面都重要的影響。

尤其是一旦實現(xiàn)了基因組測序數(shù)據(jù)、相應(yīng)的表型數(shù)據(jù)與機器學(xué)習(xí)的結(jié)合,可能會給人類帶來很多意想不到的新發(fā)現(xiàn),可以為每個人提供個性化的健康指導(dǎo)。這對于大多數(shù)人來說,都具有足夠的吸引力。

此外,Nebula通過去中心化的模式也解決了人們對隱私保護的擔(dān)憂。為了讓人們不用擔(dān)心,Nebula中的基因組數(shù)據(jù)擁有者可以私下存儲自己的基因組數(shù)據(jù),同時控制訪問權(quán)限。數(shù)據(jù)共享時,也會采用加密安全計算等技術(shù)。與此同時,數(shù)據(jù)的擁有者會保持匿名,數(shù)據(jù)買家則要求是身份完全透明。Nebula的區(qū)塊鏈存儲所有的交易記錄,這些交易記錄都不可篡改。

對于數(shù)據(jù)的需求方來說,通過從個體用戶直接獲取高質(zhì)量的基因組數(shù)據(jù)和相應(yīng)的表型數(shù)據(jù),可以降低成本,更方便從數(shù)據(jù)中找出規(guī)律,便于研發(fā)新藥,便于為用戶提供個性化的健康方案。

鑒于基因組測序目前的價格還不便宜,還有普通用戶在區(qū)塊鏈技術(shù)及相關(guān)技術(shù)的使用上還存在一定的易用性障礙,要形成真正的基因組測序交易市場還有很長的路要走。對此,我們要保持清醒的認(rèn)識,同時也有充分的耐心。

從以上的闡述可以看到,區(qū)塊鏈技術(shù)和去中心化的模式能夠?qū)蚪M測序行業(yè)產(chǎn)生重塑的作用,期待像Nebula這樣的項目能夠充分利用區(qū)塊鏈,創(chuàng)建出真正的有規(guī)模效應(yīng)的去中心化的基因組數(shù)據(jù)交易市場。一旦走向正向循環(huán),這會產(chǎn)生前所未有的行業(yè)效應(yīng)。

關(guān)鍵詞: 區(qū)塊鏈 基因測序行業(yè) 重塑

精選 導(dǎo)讀

募資55億港元萬物云啟動招股 預(yù)計9月29日登陸港交所主板

萬科9月19日早間公告,萬物云當(dāng)日啟動招股,預(yù)計發(fā)行價介乎每股47 1港元至52 7港元,預(yù)計9月29日登陸港交所主板。按發(fā)行1 167億股計算,萬

發(fā)布時間: 2022-09-20 10:39
管理   2022-09-20

公募基金二季度持股情況曝光 隱形重倉股多為高端制造業(yè)

隨著半年報披露收官,公募基金二季度持股情況曝光。截至今年二季度末,公募基金全市場基金總數(shù)為9794只,資產(chǎn)凈值為269454 75億元,同比上

發(fā)布時間: 2022-09-02 10:45
資訊   2022-09-02

又有上市公司宣布變賣房產(chǎn) 上市公司粉飾財報動作不斷

再有上市公司宣布變賣房產(chǎn)。四川長虹25日稱,擬以1 66億元的轉(zhuǎn)讓底價掛牌出售31套房產(chǎn)。今年以來,A股公司出售房產(chǎn)不斷。根據(jù)記者不完全統(tǒng)

發(fā)布時間: 2022-08-26 09:44
資訊   2022-08-26

16天12連板大港股份回復(fù)深交所關(guān)注函 股份繼續(xù)沖高

回復(fù)交易所關(guān)注函后,大港股份繼續(xù)沖高。8月11日大港股份高開,隨后震蕩走高,接近收盤時觸及漲停,報20 2元 股。值得一提的是,在7月21日

發(fā)布時間: 2022-08-12 09:56
資訊   2022-08-12

萬家基金再添第二大股東 中泰證券擬受讓11%基金股權(quán)

7月13日,中泰證券發(fā)布公告,擬受讓齊河眾鑫投資有限公司(以下簡稱齊河眾鑫)所持有的萬家基金11%的股權(quán),交易雙方共同確定本次交易的標(biāo)的資

發(fā)布時間: 2022-07-14 09:39
管理   2022-07-14

央行連續(xù)7日每天30億元逆回購 對債市影響如何?

央行12日再次開展了30億元逆回購操作,中標(biāo)利率2 10%。這已是央行連續(xù)7日每天僅進行30億元的逆回購縮量投放,創(chuàng)下去年1月以來的最低操作規(guī)

發(fā)布時間: 2022-07-13 09:38
資訊   2022-07-13

美元指數(shù)創(chuàng)近20年新高 黃金期貨創(chuàng)出逾9個月新低

由于對美聯(lián)儲激進加息的擔(dān)憂,美元指數(shù)11日大漲近1%創(chuàng)出近20年新高。受此影響,歐美股市、大宗商品均走弱,而黃金期貨創(chuàng)出逾9個月新低。美

發(fā)布時間: 2022-07-13 09:36
資訊   2022-07-13

美股三大股指全線下跌 納斯達(dá)克跌幅創(chuàng)下記錄以來最大跌幅

今年上半年,美股持續(xù)回落。數(shù)據(jù)顯示,道瓊斯指數(shù)上半年下跌15 3%,納斯達(dá)克綜合指數(shù)下跌29 5%,標(biāo)普500指數(shù)下跌20 6%。其中,納斯達(dá)克連續(xù)

發(fā)布時間: 2022-07-04 09:51
推薦   2022-07-04

融資客熱情回升 兩市融資余額月內(nèi)增加超344億元

近期A股走強,滬指6月以來上漲4%,融資客熱情明顯回升。數(shù)據(jù)顯示,截至6月16日,兩市融資余額1 479萬億元,月內(nèi)增加344 67億元,最近一個半

發(fā)布時間: 2022-06-20 09:41
資訊   2022-06-20

4個交易日凈買入超百億元 北向資金持續(xù)流入A股市場

北向資金凈流入態(tài)勢延續(xù)。繼6月15日凈買入133 59億元后,北向資金6月16日凈買入44 52億元。自5月27日至今,除6月13日以外,北向資金累計凈

發(fā)布時間: 2022-06-17 09:37
推薦   2022-06-17