我們

谷歌(gē)“反擊戰”開(kāi)啓熱議多(duō)模态模型商業化

繼ChatGPT上(shàng)線一周年之後，近日，谷歌(gē)的多(duō)模态Gemini忽然上(shàng)線，被業界視(shì)為(wèi)“谷歌(gē)最強反擊戰開(kāi)啓”。投資機構針對Gemini的討(tǎo)論“炸開(kāi)了鍋”。業內(nèi)人(rén)士認為(wèi)，Gemini在視(shì)覺識别和(hé)推理(lǐ)推斷方面有(yǒu)顯著優化，落到商業場(chǎng)景上(shàng)，實時(shí)交互場(chǎng)景或成為(wèi)多(duō)模态人(rén)工智能模型應用的焦點。

Gemini“太震撼”

近日，谷歌(gē)CEO桑達爾·皮查伊宣布Gemini1.0版正式上(shàng)線。Google DeepMind産品副總裁伊萊·柯林斯表示，這是Google迄今為(wèi)止功能最強大(dà)、最通(tōng)用的大(dà)模型。

據了解，和(hé)市面上(shàng)現有(yǒu)大(dà)模型相比，Gemini從一開(kāi)始就被創建為(wèi)多(duō)模态的模型，這意味着它可(kě)以歸納并流暢地理(lǐ)解、操作(zuò)以及組合不同類型的信息，包括文本、代碼、音(yīn)頻、圖像和(hé)視(shì)頻。在靈活度上(shàng)，從數(shù)據中心到移動設備上(shàng)，它都能夠運行(xíng)。

在觀看Gemini系列演示視(shì)頻後，不少(shǎo)投資人(rén)表示“太震撼”。“看了Gemini的演示視(shì)頻，其所表現出來(lái)的對多(duō)模态理(lǐ)解的能力非常驚人(rén)，此外，Gemini所表現出來(lái)的推理(lǐ)能力目前看來(lái)是超過ChatGPT的。”北京郵電(diàn)大(dà)學計(jì)算(suàn)機學院副教授孫海峰表示，一方面，在多(duō)模态信息處理(lǐ)上(shàng)，Gemini遠超OpenAI的ChatGPT。Gemini既可(kě)以支持多(duō)模态信息輸入，也支持多(duō)模态信息輸出。Gemini一個(gè)典型的特點是支持文本、圖像、音(yīn)頻和(hé)視(shì)頻的交錯序列作(zuò)為(wèi)輸入，這對于ChatGPT或者傳統架構的多(duō)模态大(dà)模型來(lái)講，是很(hěn)難實現的。通(tōng)常來(lái)講，ChatGPT僅僅支持文字的輸出，其他模态的輸出需要調用第三方API來(lái)實現。Gemini這種交錯序列的輸入方式更符合絕大(dà)多(duō)數(shù)場(chǎng)景的需求。另一方面，在Gemini的技(jì)術(shù)報告中，其在MMLU數(shù)據集測試中的準确率達到了90.04%，超過了人(rén)類專家(jiā)，其推理(lǐ)能力的進化具有(yǒu)裏程碑意義。

在Gemini上(shàng)線後的一天，谷歌(gē)被外界質疑稱，多(duō)模态視(shì)頻是剪輯拼貼的，Gemini涉嫌誇大(dà)宣傳。谷歌(gē)官方也給予了解釋：視(shì)頻的确有(yǒu)後期制(zhì)作(zuò)和(hé)剪輯的成分，Gemini所有(yǒu)交互不是實時(shí)感知到，而是工作(zuò)人(rén)員給予圖片和(hé)提示之後的效果，即Gemini在讀取視(shì)頻方面還(hái)有(yǒu)待進一步發展。

實時(shí)交互場(chǎng)景或是商業化焦點

受此消息的影(yǐng)響，國內(nèi)投資人(rén)針對多(duō)模态技(jì)術(shù)及其應用展開(kāi)熱議。

某科技(jì)賽道(dào)的一級投資人(rén)表示，相較ChatGPT-4，Gemini的識圖和(hé)推理(lǐ)能力，以及目前看上(shàng)去的響應速度有(yǒu)很(hěn)大(dà)進步。他個(gè)人(rén)認為(wèi)，Gemini與OpenAI的産品各有(yǒu)千秋，商業化落地方面還(hái)需要找到合适的場(chǎng)景。“有(yǒu)合适的場(chǎng)景适配，并找到增值需求還(hái)是關鍵，但(dàn)Gemini确實是将AI模型的想象空(kōng)間(jiān)進一步打開(kāi)了。”

“可(kě)以大(dà)膽想象，當多(duō)模态模型運行(xíng)在機器(qì)人(rén)(11.640, -0.05, -0.43%)身上(shàng)，可(kě)能實現具身智能，另外，當多(duō)模态模型和(hé)谷歌(gē)眼鏡結合時(shí)，或将升級為(wèi)超級智能體(tǐ)。”另一位投資人(rén)表示。

某技(jì)術(shù)人(rén)士介紹，人(rén)類有(yǒu)五種感官，我們所建造的世界、所消費的媒體(tǐ)，都是以這樣的方式所呈現。而多(duō)模态模型意味着Gemini可(kě)以用和(hé)人(rén)類一樣的方式理(lǐ)解周圍的世界，并且吸收任何類型的輸入和(hé)輸出——無論是文字，還(hái)是代碼、音(yīn)頻、圖像、視(shì)頻。其中最關鍵的技(jì)術(shù)，是如何混合所有(yǒu)這些(xiē)模式，如何從任意數(shù)量的輸入和(hé)感官中收集盡可(kě)能多(duō)的數(shù)據，然後給出同樣多(duō)樣化的響應。

“Gemini更像人(rén)了，更貼近人(rén)的視(shì)覺識别和(hé)一些(xiē)推理(lǐ)判斷，OpenAI的ChatGPT更多(duō)像一個(gè)大(dà)知識庫，它能夠給人(rén)提供信息參考。兩者不是誰超越誰，而是側重方向有(yǒu)顯著不同。”某投資人(rén)表示。

孫海峰表示，目前還(hái)不太清楚Gemini的具體(tǐ)實現結構是什麽樣的，但(dàn)是這種對多(duō)種模态信息可(kě)以交錯序列作(zuò)為(wèi)輸入方式的模式，是許多(duō)場(chǎng)景、尤其是實時(shí)交互場(chǎng)景非常需要的。

另一位科技(jì)投資人(rén)認為(wèi)，Gemini的發布意味着大(dà)廠在人(rén)工智能方面具有(yǒu)先發優勢更加确定，比如谷歌(gē)的Gemini視(shì)覺推理(lǐ)方面能力突出，是因為(wèi)他們有(yǒu)基于搜索引擎的各種資料作(zuò)為(wèi)大(dà)量的訓練數(shù)據。此外，大(dà)廠在數(shù)據、流量、資金、算(suàn)力以及應用場(chǎng)景上(shàng)的優勢都很(hěn)明(míng)顯。

來(lái)源：中證網

我們

推薦閱讀