Elsevier是世界領(lǐng)先的科學(xué)和醫(yī)療信息出版商之一。雖然最著名的出版商如“柳葉刀”和Cell等主要期刊,但近年來(lái)業(yè)務(wù)發(fā)生了徹底轉(zhuǎn)變,將自己定位為醫(yī)療,學(xué)術(shù)和科學(xué)界的分析工具和平臺(tái)提供商。
通過(guò)利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)構(gòu)建先進(jìn)的分析系統(tǒng),公司在其140年的歷史中整理和發(fā)布的大量數(shù)據(jù)之上,實(shí)現(xiàn)了這一目標(biāo)。
傳統(tǒng)上科學(xué)或?qū)W術(shù)研究會(huì)涉及紙質(zhì)出版物和書籍,使用索引來(lái)希望找到相關(guān)信息。隨著互聯(lián)網(wǎng)日益成為日常生活的一部分,隨著文學(xué)的廣泛數(shù)字化,將這一過(guò)程轉(zhuǎn)變?yōu)閿?shù)字體驗(yàn)的第一階段已經(jīng)實(shí)現(xiàn)。
搜索引擎和元數(shù)據(jù)簡(jiǎn)化了每年在Elsevier出版物中出現(xiàn)的超過(guò)400,000篇文章的搜索過(guò)程。在業(yè)務(wù)中,這被認(rèn)為是公司正在進(jìn)行的數(shù)字化轉(zhuǎn)型的第一階段。
現(xiàn)在,隨著全球信息量以指數(shù)速度增長(zhǎng),第二階段正在順利進(jìn)行。首席技術(shù)官Dan Olley向我介紹了適應(yīng)研究人員,臨床醫(yī)生和教育工作者在數(shù)字時(shí)代尋找信息的新方法的持續(xù)任務(wù)。
“問(wèn)題是我們正在接近信息超載,”他告訴我。
“我們都得到了太多的信息 - 我們面臨的挑戰(zhàn)是如何將這些信息提煉成真正重要的信息,在適當(dāng)?shù)奈恢毛@得正確的知識(shí)點(diǎn),并將事實(shí)與不太準(zhǔn)確的事實(shí)區(qū)分開(kāi)來(lái)。”
信息過(guò)載當(dāng)然不是Elsevier的客戶或整個(gè)更廣泛的學(xué)術(shù)和科學(xué)界所特有的問(wèn)題。據(jù)估計(jì),世界上的數(shù)據(jù)總量每?jī)赡攴环5?020年,現(xiàn)有的信息量將達(dá)到45 ZBT,即45萬(wàn)億GB,這是人腦可以理解的。如果所有這些信息都存儲(chǔ)在具有128GB內(nèi)存的iPad上,那么您將能夠從地球到月球建立一個(gè)堆棧 - 六次。
所以現(xiàn)在的問(wèn)題很少是缺乏信息。在適當(dāng)?shù)臅r(shí)間找到正確的信息,并以適合研究人員和科學(xué)家日常工作方式的方式訪問(wèn)這些信息的可能性更大。
Olley說(shuō):“我相信我們需要在適當(dāng)?shù)臅r(shí)候?yàn)槲覀兊目蛻籼峁┧麄冃枰闹R(shí),而不僅僅是一大堆內(nèi)容。
“這就是分析為我們帶來(lái)的方式 - 我們?nèi)绾蜗蛉藗兲峁┧麄冃枰男畔?lái)幫助他們做出最佳決策?要真正幫助臨床醫(yī)生提高生活質(zhì)量,幫助科學(xué)家取得突破,而不僅僅是讓他們閱讀!
有價(jià)值的是,如果信息被鎖定在只有人類可以閱讀的形式 - 期刊,出版物,文件,圖表和照片。這類信息被稱為非結(jié)構(gòu)化數(shù)據(jù) - 因?yàn)樗⒉贿m合傳統(tǒng)計(jì)算機(jī)分析軟件需要能夠處理數(shù)據(jù)的行和列。因此,它只能被人們快速閱讀才能處理。
這就是機(jī)器學(xué)習(xí)的地方。機(jī)器學(xué)習(xí)是人工智能算法中當(dāng)前前沿的術(shù)語(yǔ) - 計(jì)算機(jī)軟件被設(shè)計(jì)用來(lái)在數(shù)據(jù)處理方面變得越來(lái)越高效,因?yàn)樗耘c人類一樣的方式“學(xué)習(xí)”。
“機(jī)器學(xué)習(xí)對(duì)我們來(lái)說(shuō)有什么作用可以解開(kāi)開(kāi)始處理這些非結(jié)構(gòu)化數(shù)據(jù)的能力,并開(kāi)始從中獲得見(jiàn)解。
“我們可以使用機(jī)器學(xué)習(xí)以”傳統(tǒng)“自然語(yǔ)言處理所難以做到的方式從文檔中提取信息和見(jiàn)解。當(dāng)你想到圖像和其他視覺(jué)數(shù)據(jù)時(shí),這更加真實(shí)“
Elsevier為這項(xiàng)革命性技術(shù)所發(fā)現(xiàn)的首批應(yīng)用之一是通過(guò)研究人類如何使用其現(xiàn)有系統(tǒng)來(lái)解決一個(gè)它意識(shí)到的簡(jiǎn)單問(wèn)題。
研究人員輸入的搜索條件分析發(fā)現(xiàn),他們通常以流程圖的形式查找信息。幸運(yùn)的是圖像識(shí)別 - 有時(shí)被稱為計(jì)算機(jī)視覺(jué),因?yàn)樗噲D讓計(jì)算機(jī)以與人類相同的方式“看到” - 在這里立即有用。
通過(guò)訓(xùn)練機(jī)器學(xué)習(xí)算法來(lái)梳理成千上萬(wàn)份研究論文和文章,并且越來(lái)越善于決定圖像何時(shí)構(gòu)成流程圖,而不是條形圖,餅圖或照片 - 它可以開(kāi)始更精確地返回結(jié)果匹配人類研究人員正在尋找的東西。
當(dāng)它這樣做時(shí),它也開(kāi)始對(duì)它遇到的其他圖像進(jìn)行分類。而不是僅僅拒絕照片“不是流程圖”,因此不是必需的,它越來(lái)越擅長(zhǎng)對(duì)各種圖像進(jìn)行分類和標(biāo)注。因此,當(dāng)下一位人類研究人員查找照片時(shí),數(shù)據(jù)已經(jīng)在系統(tǒng)中進(jìn)行了標(biāo)記。
與手動(dòng)執(zhí)行此項(xiàng)工作相比,使用機(jī)器學(xué)習(xí)節(jié)省了數(shù)十人年的工作量。“我們?cè)趲讉(gè)月內(nèi)得到了這個(gè)東西,這是一個(gè)非常有用的功能,”O(jiān)lley說(shuō)。
技術(shù)類似于亞馬遜或Netflix用戶熟悉的“推薦引擎”中使用的技術(shù) - “如果你喜歡這個(gè),你可能也會(huì)喜歡這樣的......”對(duì)于學(xué)術(shù)和科學(xué)研究人員同樣有用。非常如此,Elsevier將其構(gòu)建到其諸如ScienceDirect平臺(tái)的服務(wù)中。
這意味著ScienceDirect能夠根據(jù)他們與我們工具的所有交互情況計(jì)算出他感興趣的內(nèi)容,然后推薦其他可能相關(guān)的研究,即使這些研究來(lái)自完全不同的學(xué)科。Olley說(shuō):“我們基本上在研究別人正在研究什么,并推薦其他對(duì)他們有幫助的事情 - 我們可以說(shuō)'這里有三篇文章,甚至是三段文字或圖片,這些文章剛剛發(fā)布,我們認(rèn)為與你的研究非常相關(guān)。'“
從那里開(kāi)始,下一個(gè)挑戰(zhàn)就是在Elsevier自己的業(yè)務(wù)中采用相同的方法。
“有趣的是,一旦你開(kāi)始熟練掌握這些東西,你就會(huì)意識(shí)到有多少機(jī)會(huì),”奧利說(shuō)。
“所以,我們將這種技術(shù)應(yīng)用到我們的產(chǎn)品中,針對(duì)護(hù)士,醫(yī)生,學(xué)術(shù)研究人員以及制藥公司等大公司的研究人員。但我們也意識(shí)到我們可以在自己的操作流程中使用它!
為了做到這一點(diǎn),Elsevier不得不成為一家技術(shù)公司,并開(kāi)始針對(duì)其問(wèn)題開(kāi)發(fā)技術(shù)解決方案,其方式是讓谷歌,亞馬遜和Facebook等技術(shù)領(lǐng)域的領(lǐng)先企業(yè)成為其領(lǐng)域的主人。
“我的觀點(diǎn)是,當(dāng)我們?cè)?0年內(nèi)查看組織時(shí),公司中的每個(gè)部門都會(huì)有一個(gè)分析團(tuán)隊(duì)。我認(rèn)為組織從“卓越分析中心”這樣的事情開(kāi)始,但我不認(rèn)為這是結(jié)束的地方,對(duì)于那些真正了解他們正在努力解決的問(wèn)題的人來(lái)說(shuō),這應(yīng)該是一種無(wú)處不在的技能。
“看看我們現(xiàn)在的位置 - 你可以從亞馬遜,微軟或谷歌獲得機(jī)器學(xué)習(xí)服務(wù)。技術(shù)不是問(wèn)題,而是數(shù)據(jù)。
“首先查看你的數(shù)據(jù),找出你需要解決的問(wèn)題,并找出解決這些問(wèn)題所需的數(shù)據(jù)。今天,數(shù)據(jù)正在成為商業(yè)世界的真正貨幣。“
Elsevier采用了一種可能會(huì)越來(lái)越普遍的模式,因?yàn)槲覀兛吹揭耘f世界技術(shù)和數(shù)據(jù)系統(tǒng)為基礎(chǔ)的企業(yè)轉(zhuǎn)向數(shù)字驅(qū)動(dòng)型組織。
越來(lái)越多的業(yè)務(wù)的每個(gè)方面都在變成數(shù)據(jù)驅(qū)動(dòng),并且將正確的工具和系統(tǒng)轉(zhuǎn)換成能夠?qū)⒋罅恐R(shí)轉(zhuǎn)化為動(dòng)力 - 可操作的見(jiàn)解 - 是成功實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型的關(guān)鍵。
奧利先生的最后一筆智慧,我當(dāng)然認(rèn)為它非常有價(jià)值 - “不要覺(jué)得你必須馬上解決100%的問(wèn)題。如果你想解決一個(gè)問(wèn)題,那么如果你的機(jī)器學(xué)習(xí)算法能解決一半問(wèn)題,那么就好了,你仍然需要將一半的問(wèn)題發(fā)送給人類。“
“你仍然解決了一半的問(wèn)題,隨著時(shí)間的推移,正確的反饋循環(huán),你會(huì)解決另一半,但你不必在第一天就這樣做。這些解決方案將隨著您的訓(xùn)練而不斷增長(zhǎng)和發(fā)展,并且不會(huì)取代人類智能。“