您當前所在位置:知道(dào)網絡 > 新聞 > 行(xíng)業新聞

我們

谷歌(gē)“反擊戰”開(kāi)啓 熱議多(duō)模态模型商業化

繼ChatGPT上(shàng)線一周年之後,近日,谷歌(gē)的多(duō)模态Gemini忽然上(shàng)線,被業界視(shì)為(wèi)“谷歌(gē)最強反擊戰開(kāi)啓”。投資機構針對Gemini的討(tǎo)論“炸開(kāi)了鍋”。業內(nèi)人(rén)士認為(wèi),Gemini在視(shì)覺識别和(hé)推理(lǐ)推斷方面有(yǒu)顯著優化,落到商業場(chǎng)景上(shàng),實時(shí)交互場(chǎng)景或成為(wèi)多(duō)模态人(rén)工智能模型應用的焦點。

b2218e2312b942eead6bf677b2300553.jpg

Gemini“太震撼”

近日,谷歌(gē)CEO桑達爾·皮查伊宣布Gemini1.0版正式上(shàng)線。Google DeepMind産品副總裁伊萊·柯林斯表示,這是Google迄今為(wèi)止功能最強大(dà)、最通(tōng)用的大(dà)模型。

據了解,和(hé)市面上(shàng)現有(yǒu)大(dà)模型相比,Gemini從一開(kāi)始就被創建為(wèi)多(duō)模态的模型,這意味着它可(kě)以歸納并流暢地理(lǐ)解、操作(zuò)以及組合不同類型的信息,包括文本、代碼、音(yīn)頻、圖像和(hé)視(shì)頻。在靈活度上(shàng),從數(shù)據中心到移動設備上(shàng),它都能夠運行(xíng)。

在觀看Gemini系列演示視(shì)頻後,不少(shǎo)投資人(rén)表示“太震撼”。“看了Gemini的演示視(shì)頻,其所表現出來(lái)的對多(duō)模态理(lǐ)解的能力非常驚人(rén),此外,Gemini所表現出來(lái)的推理(lǐ)能力目前看來(lái)是超過ChatGPT的。”北京郵電(diàn)大(dà)學計(jì)算(suàn)機學院副教授孫海峰表示,一方面,在多(duō)模态信息處理(lǐ)上(shàng),Gemini遠超OpenAI的ChatGPT。Gemini既可(kě)以支持多(duō)模态信息輸入,也支持多(duō)模态信息輸出。Gemini一個(gè)典型的特點是支持文本、圖像、音(yīn)頻和(hé)視(shì)頻的交錯序列作(zuò)為(wèi)輸入,這對于ChatGPT或者傳統架構的多(duō)模态大(dà)模型來(lái)講,是很(hěn)難實現的。通(tōng)常來(lái)講,ChatGPT僅僅支持文字的輸出,其他模态的輸出需要調用第三方API來(lái)實現。Gemini這種交錯序列的輸入方式更符合絕大(dà)多(duō)數(shù)場(chǎng)景的需求。另一方面,在Gemini的技(jì)術(shù)報告中,其在MMLU數(shù)據集測試中的準确率達到了90.04%,超過了人(rén)類專家(jiā),其推理(lǐ)能力的進化具有(yǒu)裏程碑意義。

在Gemini上(shàng)線後的一天,谷歌(gē)被外界質疑稱,多(duō)模态視(shì)頻是剪輯拼貼的,Gemini涉嫌誇大(dà)宣傳。谷歌(gē)官方也給予了解釋:視(shì)頻的确有(yǒu)後期制(zhì)作(zuò)和(hé)剪輯的成分,Gemini所有(yǒu)交互不是實時(shí)感知到,而是工作(zuò)人(rén)員給予圖片和(hé)提示之後的效果,即Gemini在讀取視(shì)頻方面還(hái)有(yǒu)待進一步發展。

實時(shí)交互場(chǎng)景或是商業化焦點

受此消息的影(yǐng)響,國內(nèi)投資人(rén)針對多(duō)模态技(jì)術(shù)及其應用展開(kāi)熱議。

某科技(jì)賽道(dào)的一級投資人(rén)表示,相較ChatGPT-4,Gemini的識圖和(hé)推理(lǐ)能力,以及目前看上(shàng)去的響應速度有(yǒu)很(hěn)大(dà)進步。他個(gè)人(rén)認為(wèi),Gemini與OpenAI的産品各有(yǒu)千秋,商業化落地方面還(hái)需要找到合适的場(chǎng)景。“有(yǒu)合适的場(chǎng)景适配,并找到增值需求還(hái)是關鍵,但(dàn)Gemini确實是将AI模型的想象空(kōng)間(jiān)進一步打開(kāi)了。”

“可(kě)以大(dà)膽想象,當多(duō)模态模型運行(xíng)在機器(qì)人(rén)(11.640, -0.05, -0.43%)身上(shàng),可(kě)能實現具身智能,另外,當多(duō)模态模型和(hé)谷歌(gē)眼鏡結合時(shí),或将升級為(wèi)超級智能體(tǐ)。”另一位投資人(rén)表示。

某技(jì)術(shù)人(rén)士介紹,人(rén)類有(yǒu)五種感官,我們所建造的世界、所消費的媒體(tǐ),都是以這樣的方式所呈現。而多(duō)模态模型意味着Gemini可(kě)以用和(hé)人(rén)類一樣的方式理(lǐ)解周圍的世界,并且吸收任何類型的輸入和(hé)輸出——無論是文字,還(hái)是代碼、音(yīn)頻、圖像、視(shì)頻。其中最關鍵的技(jì)術(shù),是如何混合所有(yǒu)這些(xiē)模式,如何從任意數(shù)量的輸入和(hé)感官中收集盡可(kě)能多(duō)的數(shù)據,然後給出同樣多(duō)樣化的響應。

“Gemini更像人(rén)了,更貼近人(rén)的視(shì)覺識别和(hé)一些(xiē)推理(lǐ)判斷,OpenAI的ChatGPT更多(duō)像一個(gè)大(dà)知識庫,它能夠給人(rén)提供信息參考。兩者不是誰超越誰,而是側重方向有(yǒu)顯著不同。”某投資人(rén)表示。

孫海峰表示,目前還(hái)不太清楚Gemini的具體(tǐ)實現結構是什麽樣的,但(dàn)是這種對多(duō)種模态信息可(kě)以交錯序列作(zuò)為(wèi)輸入方式的模式,是許多(duō)場(chǎng)景、尤其是實時(shí)交互場(chǎng)景非常需要的。

另一位科技(jì)投資人(rén)認為(wèi),Gemini的發布意味着大(dà)廠在人(rén)工智能方面具有(yǒu)先發優勢更加确定,比如谷歌(gē)的Gemini視(shì)覺推理(lǐ)方面能力突出,是因為(wèi)他們有(yǒu)基于搜索引擎的各種資料作(zuò)為(wèi)大(dà)量的訓練數(shù)據。此外,大(dà)廠在數(shù)據、流量、資金、算(suàn)力以及應用場(chǎng)景上(shàng)的優勢都很(hěn)明(míng)顯。


來(lái)源:中證網

青島知道(dào)網絡-專注企業網站(zhàn)建設與網絡推廣-全網整合營銷

推薦閱讀