1月24日,據《紐約時報》中文網報道,聖誕節的第二天,壹家名爲深度求索(DeepSeek)的中國小型初創公司發布了壹個新的人工智能係統,其功能可與OpenAI和谷歌等公司的尖端聊天機器人相媲美。
【AI初創公司DeepSeek火爆全球 彎道超車還是數據盜竊?】
— TimedNews.com (@TimednewsC) January 31, 2025
1月24日,據《紐約時報》中文網報道,聖誕節的第二天,壹家名爲深度求索(DeepSeek)的中國小型初創公司發布了壹個新的人工智能係統,其功能可與OpenAI和谷歌等公司的尖端聊天機器人相媲美。 https://t.co/7G6Nr7q6Vx pic.twitter.com/eTrhfoC6c0
能做到這點本已是壹個裏程碑。但這個名爲DeepSeek-V3的大模型背後的團隊描述了壹個更大的進步。深度求索的工程師在介紹他們如何構建這個大模型的研究論文中寫道,他們在訓練該係統時隻用了領先人工智能公司用的高度專業化計算機芯片的壹小部分。
這些芯片是美中激烈技術競爭的核心。隨着美國政府努力保持本國在全球人工智能競爭中的領先地位,它正在試圖對能出售給中國以及其他競爭對手的高性能芯片(如矽谷公司英偉達生產的那些)進行限製。
但DeepSeek大模型的表現讓人們對美國政府貿易限製的意外後果產生了質疑。美國的出口管製措施已迫使中國研究人員使用互聯網上免費提供的各種工具來發揮創造力。
據美國人工智能公司壹直使用的行業基準測試,DeepSeek聊天機器人能回答問題、解決邏輯問題,併編寫自己的計算機程序,其能力不亞於市場上已有的任何產品。
而且它的造價很低,挑戰了隻有最大的科技企業(它們全都在美國)才能製造出最先進的人工智能係統的普遍觀念。中國工程師稱,他們隻花了約600萬美元的原始計算能力就訓練了新模型,不到科技巨頭Meta訓練其最新人工智能模型所耗資金的十分之壹。
“有600萬美元資金的公司在數量上遠遠多於有1億美元或10億美元資金的公司,”風險投資公司Page One Ventures的投資人克裏斯·尼科爾森說道,他主要投資人工智能技術。
自從OpenAI 2022年發布了ChatGPT,引發人工智能熱潮以來,許多專家和投資者曾得出結論認爲,如果不投入數億美元購買人工智能專用芯片的話,沒有公司能與行業領軍者競爭。
世界領先的人工智能公司用超級計算機來訓練它們的聊天機器人,這些超級計算機需要多達1.6萬個芯片,甚至更多。但DeepSeek的工程師卻說,他們隻用了約2000個英偉達生產的專用芯片。
中國進口芯片受到限製,迫使DeepSeek工程師“更有效地訓練大模型,以讓其仍有競爭力”,喬治華盛頓大學專門研究新興技術和國際關係的助理教授傑弗裏·丁(音)說。
本月早些時候,拜登政府頒布了旨在阻止中國通過其他國家獲得先進人工智能芯片的新規則。新規則出台前,美國已採取了多輪限製措施,阻止中國公司購買或製造尖端計算機芯片。川普總統尚未表明他是否會繼續實施或取消這些措施。
美國政府壹直試圖阻止中國公司獲得先進芯片,因爲擔心這些芯片可能用於軍事目的。作爲回應,中國的壹些公司囤積了大量這類芯片,另壹些公司則在蓬勃發展的黑市採購走私芯片。
DeepSeek由壹家名叫幻方的量化股票交易公司運營。到2001年,它已將利潤投入購買數千枚英偉達芯片,用於訓練其早期模型。公司沒有回復記者的置評請求,它在中國有壹種名聲,那就是以高薪和讓人們能夠探索最感興趣的研究課題爲承諾,吸引了剛從頂尖大學畢業的人才。
曾參與早期DeepSeek大模型開發的計算機工程師汪子涵(音)說,公司也雇傭沒有任何計算機科學背景的人幫助該技術理解併生成詩歌,併在做難度極大的中國高考試捲時獲得高分。
DeepSeek不製造任何消費者產品,而是讓工程師全神貫注地做研究。這意味着其技術不受中國有關人工智能法規中最嚴格部分的限製,中國要求面向消費者的技術必須遵循政府對信息的控製。
領先的美國公司繼續推動人工智能的發展。去年12月,OpenAI公布了壹款性能超過現有技術的名爲o3的新“推理”係統,儘管該係統尚未在該公司以外得到廣泛使用。但DeepSeek繼續表明自己併不落後,它在本月發布了自己的壹個推理模型,性能同樣令人印象深刻。
(《紐約時報》已起訴OpenAI及其合作夥伴微軟,稱其侵犯了與人工智能係統相關新聞內容的版權。OpenAI和微軟否認了這些指控。)
這個快速變化的全球市場的關鍵部分是壹個存在已久的想法:開源軟件。與許多其他公司壹樣,DeepSeek也將其最新的人工智能模型放入開源軟件係統,這意味着它已經與其他企業和研究人員共享了基礎代碼,讓其他人能用相同的技術構建和發布自己的產品。
雖然中國大型科技企業的員工隻與自己的同事合作,但“如果妳從事開源軟件開發,妳其實是在與世界各地的人才合作”,舊金山Baseten的首席軟件工程師張壹能(音)說,他爲開源的SGLang項目工作。他還幫助其他人和公司使用DeepSeek模型構建產品。
2023年,Meta免費分享了壹個名爲LLama的人工智能模型後,人工智能的開源生態係統開始蓬勃發展。許多人曾假設,隻有像Meta這樣的科技巨頭——擁有使用大量專用芯片的大型數據中心——繼續開源其技術,人工智能社區才會蓬勃發展。但DeepSeek和其他公司已表明,它們也可以拓展開源技術的能力。
許多高管和專家認爲,美國大公司不應該開源其技術,因爲它們能被用來傳播虛假信息或造成其他嚴重危害。壹些美國立法者已在探索阻止或限製開源的可能性。
但也有人認爲,如果監管機構扼殺了開源技術在美國的進步,中國將獲得顯著優勢。他們認爲,如果最好的開源技術來自中國,美國開發人員將在這些技術的基礎上構建他們的係統。從長遠來看,這可能會讓中國成爲研發人工智能的中心。
“開源社區的重心已在向中國轉移,”加州大學伯克利分校計算機科學教授伊恩·斯托伊卡說。“這對美國來說可能是壹個巨大的危險”,因爲它讓中國得以加速新技術的研發。
就職典禮數小時後,川普總統撤銷了拜登政府威脅限製開源技術的行政命令。
斯托伊卡和他的學生最近構建了壹個名爲Sky-T1的人工智能模型,在某些基準測試中,該模型的性能可與最新的OpenAI係統——OpenAI o1相媲美。他們的模型隻需要450美元的計算能力。
他們能做到這點是因爲他們的係統是建在中國科技巨頭阿裏巴巴發布的兩項開源技術的基礎之上的。
他們450美元的係統不如OpenAI技術或DeepSeek新模型強大。他們使用的技術不太可能產生超越領先技術性能的係統。但他們的研究表明,即使是資源微不足道的組織或者企業,也能構建具有競爭力的係統。
多倫多的技術顧問魯文·科恩從去年12月下旬起壹直在使用 DeepSeek-V3。他說,該模型與OpenAI、谷歌,以及舊金山初創公司Anthropic的最新係統能力相當,而且使用起來便宜得多。
“DeepSeek是讓我省錢的辦法,”他說。“這是像我這樣的人想用的技術。”