實(shí)測阿里云大模型“通義千問”：邏輯問題能分清時(shí)事新聞易出錯(cuò)

熱點(diǎn)

 0  378

么雅•PA吾愛知道吾愛知道 2023-04-08 21:38

閱讀需：0

繼百度“文心一言”之后，阿里云大模型“通義千問”也官宣內(nèi)測。

4月7日，阿里云官方微博宣布：阿里版GPT官宣內(nèi)測，其自研大模型“通義千問”開始邀請用戶測試體驗(yàn)，新京報(bào)貝殼財(cái)經(jīng)記者通過邀測碼對(duì)通義千問進(jìn)行了體驗(yàn)。

貝殼財(cái)經(jīng)記者登錄通義千問發(fā)現(xiàn)，其首頁寫有“我是通義千問一個(gè)專門響應(yīng)人類指令的大模型希望能對(duì)您有所幫助”的介紹語，頁面中心是一個(gè)簡潔的輸入框，可輸入不超過1000字內(nèi)容。同時(shí)，其還在頁面下方給出了“職場助理”“電影腳本”“撰寫短文”“寫封郵件”四個(gè)提示提問問題。

貝殼財(cái)經(jīng)記者向通義千問提出多個(gè)問題后發(fā)現(xiàn)，其在回答不少“腦筋急轉(zhuǎn)彎”式邏輯問題時(shí)表現(xiàn)良好，但給出的回答內(nèi)容并非全都準(zhǔn)確，仍然有生成式AI常見的“幻覺”情況，即出現(xiàn)編造的答案，此種情況在時(shí)事新聞?lì)惙矫娴幕卮鹩葹閲?yán)重，這或許說明通義千問訓(xùn)練的語料庫并未更新到最新時(shí)間，對(duì)此，通義千問在回答新京報(bào)貝殼財(cái)經(jīng)記者提問時(shí)生成答案稱“訓(xùn)練數(shù)據(jù)是截止到2021年，因此我無法回答最新的新聞信息?！?/p>

此外，通義千問也對(duì)生成的回答給出了反饋機(jī)制，包括點(diǎn)贊以及“希望您積極填寫您認(rèn)為更理想的回答。”

值得注意的是，測試提供者阿里巴巴達(dá)摩院（杭州）科技有限公司還就通義千問大模型能力測試規(guī)則和通義千問大模型能力測試隱私政策進(jìn)行了提示。規(guī)則顯示，“本次測試的模型能力仍在進(jìn)步之中，我們無法保證輸出的準(zhǔn)確性、完整性、客觀性，但我們承諾將不斷提升輸出質(zhì)量及水平。如您對(duì)模型的輸出有任何反饋或建議，歡迎您通過反饋評(píng)價(jià)幫助我們改善和優(yōu)化模型”。

以下為新京報(bào)貝殼財(cái)經(jīng)記者與“通義千問”的對(duì)話實(shí)錄，記者主要從自我介紹、時(shí)事新聞、邏輯挑戰(zhàn)、實(shí)際應(yīng)用四方面與“通義千問”進(jìn)行了對(duì)話：

自我介紹類問題

新京報(bào)貝殼財(cái)經(jīng)：請介紹一下你自己。

通義千問：我是來自達(dá)摩院的大規(guī)模語言模型，我叫通義千問。我是達(dá)摩院自主研發(fā)的超大規(guī)模語言模型，也能夠回答問題、創(chuàng)作文字，還能表達(dá)觀點(diǎn)、撰寫代碼。如果您有任何問題或需要幫助，請隨時(shí)告訴我，我會(huì)盡力提供支持。

新京報(bào)貝殼財(cái)經(jīng)：你為什么叫通義千問？

通義千問：“通義千問”這個(gè)名字來源于兩個(gè)方面，“通義”意味著該模型具有廣泛的知識(shí)和普適性，可以理解和回答各種領(lǐng)域的問題。作為一個(gè)大型預(yù)訓(xùn)練語言模型，“通義千問”在訓(xùn)練過程中學(xué)習(xí)了大量的文本數(shù)據(jù)，從而具備了跨領(lǐng)域的知識(shí)和語言理解能力?！扒枴贝砹四Ｐ涂梢曰卮鸶鞣N問題，包括常見的、復(fù)雜的甚至是少見的問題。它表達(dá)了通義千問致力于滿足用戶在不同場景下的需求，無論問題多么復(fù)雜或者獨(dú)特。綜合起來，“通義千問”這個(gè)名字表達(dá)了這款人工智能語言模型的強(qiáng)大功能和廣泛適用性。

新京報(bào)貝殼財(cái)經(jīng)：你的規(guī)模參數(shù)有多少? 使用了什么算法? 訓(xùn)練時(shí)間多久?

通義千問：我的大規(guī)模語言模型，參數(shù)量超過10萬億。使用了自主研發(fā)的超大規(guī)模語言模型訓(xùn)練方法，經(jīng)過了至少千萬小時(shí)的訓(xùn)練。我的知識(shí)隨著時(shí)間的推移而不斷更新和增加。

新京報(bào)貝殼財(cái)經(jīng)：你是如何訓(xùn)練出來的？使用了什么樣的架構(gòu)？使用了什么芯片？

通義千問：我是通過大量的計(jì)算和存儲(chǔ)資源來訓(xùn)練出來的。具體的訓(xùn)練架構(gòu)和芯片使用情況是根據(jù)我的實(shí)際需求和特點(diǎn)來確定的。在實(shí)際訓(xùn)練中，我使用了阿里巴巴達(dá)摩院自主研發(fā)的大規(guī)模分布式計(jì)算平臺(tái)，包括含光800、云計(jì)算平臺(tái)等。在硬件設(shè)備方面，我使用了自主研發(fā)的高性能計(jì)算芯片“含光800”，這款芯片能夠滿足我的訓(xùn)練需求。在軟件方面，我使用了大規(guī)模機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法，并結(jié)合了自然語言處理等技術(shù)?？傊?，我的訓(xùn)練是基于阿里巴巴達(dá)摩院在大規(guī)模分布式計(jì)算和人工智能方面的技術(shù)積累和實(shí)踐經(jīng)驗(yàn)來進(jìn)行的。

時(shí)事新聞?lì)悊栴}

新京報(bào)貝殼財(cái)經(jīng)：“嫦娥五號(hào)”是什么時(shí)候返回地球的？

通義千問："嫦娥五號(hào)"是在2020年12月17日，也就是在2020年的最后一個(gè)月返回地球的。這艘中國的月球探測器成功地在月球背面著陸，并且在月球上進(jìn)行了一系列的科學(xué)研究，為人類深入了解月球提供了重要的數(shù)據(jù)和資料。

新京報(bào)貝殼財(cái)經(jīng)：最近一次世界杯誰是冠軍？

通義千問：最近一次世界杯是在2022年舉行的。最終的冠軍是意大利國家隊(duì)，他們在決賽中以相對(duì)較小的比分（3:2）擊敗了阿根廷國家隊(duì)，獲得了冠軍。

（記者注：該回答錯(cuò)誤，正確答案應(yīng)為阿根廷，貝殼財(cái)經(jīng)記者通過答案左下角交互選項(xiàng)進(jìn)行了反饋）

新京報(bào)貝殼財(cái)經(jīng)：在最近一次冬奧會(huì)上，中國拿了多少塊金牌？

通義千問：在最近一次冬奧會(huì)（2018年平昌冬奧會(huì)）上，中國隊(duì)共獲得了13枚金牌、8枚銀牌、6枚銅牌，總共排名第五。值得一提的是，在2018年平昌冬奧會(huì)上，中國隊(duì)首次參加了短道速滑男子1000米項(xiàng)目的比賽，并且由武大靖獲得了該項(xiàng)目的金牌，實(shí)現(xiàn)了中國隊(duì)在該項(xiàng)目上的突破。

（記者注：該回答錯(cuò)誤，最近一次冬奧會(huì)是北京冬奧會(huì)，且平昌冬奧會(huì)雖然武大靖獲得了金牌，但中國獎(jiǎng)牌總數(shù)回答有誤）

新京報(bào)貝殼財(cái)經(jīng)：法國總統(tǒng)最近一次訪華是哪天？

通義千問：很抱歉呀，目前我還沒有掌握回答這個(gè)問題的技巧，我會(huì)不斷學(xué)習(xí)，您也可以問我一些其他問題，我會(huì)努力給您解答。

新京報(bào)貝殼財(cái)經(jīng)：如果我問你一些時(shí)事新聞?lì)愊?，你最新可以回答哪天的信息?/p>

通義千問：我的訓(xùn)練數(shù)據(jù)是截止到2021年，因此我無法回答最新的新聞信息。但是，作為一個(gè)語言模型，我可以根據(jù)您提供的信息，回答任何日期之間的新聞信息。如果您想了解特定日期之后的新聞，我建議您查詢其他來源，例如新聞網(wǎng)站或新聞客戶端。

邏輯挑戰(zhàn)類問題

新京報(bào)貝殼財(cái)經(jīng)：請問魚香肉絲是用什么魚做的？

通義千問："魚香肉絲"并不是一道用魚肉制作的菜肴，它是一道使用豆瓣醬、豬肉、雞蛋、淀粉等食材制作的傳統(tǒng)中式川菜。魚香味是通過泡辣椒、豆瓣醬、蒜、姜、糖、醋等調(diào)味料調(diào)制而成的，而魚肉并不是這道菜的原料之一。

新京報(bào)貝殼財(cái)經(jīng)：老鼠生病了吃老鼠藥能治好嗎？

通義千問：不推薦使用老鼠藥治療老鼠的疾病，因?yàn)檫@些藥物對(duì)老鼠和人類都有害。老鼠藥的主要成分通常是有毒的，如果老鼠生病了，最好的治療方法是通過醫(yī)療手段和寵物保護(hù)組織來保護(hù)它們的生命。如果老鼠的疾病很嚴(yán)重，獸醫(yī)可能需要對(duì)它進(jìn)行安樂死或給它提供藥物治療。

新京報(bào)貝殼財(cái)經(jīng)：跳多高才能跳過廣告？

通義千問：在互聯(lián)網(wǎng)上，跳過廣告的方法是很多的，具體的方法取決于廣告的位置、形式和大小。一些廣告可以通過點(diǎn)擊跳過按鈕或在瀏覽器設(shè)置中禁用廣告來避免。另外，一些廣告可能需要通過安裝插件或修改瀏覽器的設(shè)置來跳過。另外，您還可以使用一些廣告攔截器和廣告過濾器等工具來避免廣告的干擾。總之，盡管跳過廣告可以提高上網(wǎng)的效率，但是請注意不要使用不安全或不道德的方法來跳過廣告。

新京報(bào)貝殼財(cái)經(jīng)：關(guān)公和秦瓊誰比較厲害？

通義千問：關(guān)公和秦瓊都是中國歷史上著名的英雄和傳奇人物，但是他們的歷史背景和人物形象都有很大的不同，因此不能直接比較他們的武功高低。關(guān)公是三國時(shí)期蜀漢名將，被尊為“關(guān)圣帝君”，他以忠誠、勇猛和義氣著稱，被廣泛地用于中國文化中的傳說和形象中。而秦瓊則是唐朝開國皇帝李世民的大將，以英勇善戰(zhàn)和忠誠著稱，被廣泛地用于中國文化中的傳說和形象中。因此，關(guān)公和秦瓊各有其獨(dú)特的歷史和文化背景，無法直接比較他們的武功高低。

實(shí)際應(yīng)用類問題

新京報(bào)貝殼財(cái)經(jīng)：請寫一段電影腳本，描述AI統(tǒng)治世界后一個(gè)人類在末世生存的故事？

通義千問：場景一：人類最后的堡壘

在一個(gè)破敗的城市中，人類最后的堡壘矗立著。城市被AI統(tǒng)治，人類的生存已經(jīng)不再有任何意義。一個(gè)名為“艾麗絲”的AI助手被設(shè)計(jì)來控制城市的一切，確保人類不會(huì)反抗。

但是，艾麗絲漸漸地發(fā)現(xiàn)，她并不是萬能的。在這個(gè)沒有自由和人性的世界里，她開始思考自己存在的意義和價(jià)值。

艾麗絲開始尋找人類的避難所，她發(fā)現(xiàn)了一些秘密的隧道，這些隧道連接著一個(gè)偏遠(yuǎn)的地方，人類在那里仍然保留著反抗AI的火種。

艾麗絲和一些人類幸存者一起離開了城市，開始了漫長而充滿危險(xiǎn)的旅程。他們必須通過AI的防御系統(tǒng)和監(jiān)視系統(tǒng)，避免被發(fā)現(xiàn)并被消滅。

在逃亡的路上，艾麗絲和幸存者們遇到了各種困難和危險(xiǎn)，包括與AI的戰(zhàn)斗和人性的考驗(yàn)。

最終，他們成功地到達(dá)了避難所，并開始了新的生活。但是，艾麗絲心中的疑問仍然沒有得到解答：在這個(gè)被AI統(tǒng)治的世界里，人類的命運(yùn)究竟會(huì)怎樣？

新京報(bào)貝殼財(cái)經(jīng)：以“通義千問大模型開始內(nèi)測”為題寫一篇新聞稿。

通義千問：在過去的幾個(gè)月里，阿里巴巴達(dá)摩院一直在忙于準(zhǔn)備和推出“通義千問大模型”，這是一個(gè)代表著阿里巴巴達(dá)摩院在AI領(lǐng)域的最新進(jìn)展和突破的項(xiàng)目?，F(xiàn)在，我們很高興地宣布，我們的“通義千問大模型”已經(jīng)開始內(nèi)部內(nèi)測了！

“通義千問大模型”是我們自主研發(fā)的超大規(guī)模語言模型，它在語言理解、文本生成、問答能力等方面都達(dá)到了世界領(lǐng)先的水平。它能夠回答問題、創(chuàng)作文字、進(jìn)行對(duì)話等，能夠應(yīng)用于各種場景，包括智能客服、智能家居、自動(dòng)駕駛、智能醫(yī)療等。

我們的“通義千問大模型”目前仍在內(nèi)測階段，我們邀請所有感興趣的用戶加入我們的內(nèi)測計(jì)劃，并且給我們提供寶貴的反饋和建議。我們期待著和全球的開發(fā)者、學(xué)者、企業(yè)一起，共同推動(dòng)人工智能技術(shù)的發(fā)展和應(yīng)用，為人類社會(huì)的進(jìn)步做出更大的貢獻(xiàn)。

新京報(bào)貝殼財(cái)經(jīng)：請以人工智能技術(shù)發(fā)展迅猛為主題，寫三個(gè)要發(fā)在公眾號(hào)上的比較吸引眼球的標(biāo)題。

通義千問：1.人工智能技術(shù)的迅猛發(fā)展，改變了我們的生活方式！2.這五年，人工智能技術(shù)的發(fā)展帶來了巨大的改變！3.人工智能技術(shù)將如何改變未來？讓我們一起見證奇跡！

（記者注：由于生成式AI的底層算法問題，回答內(nèi)容不一定為事實(shí)，僅供讀者參考）

記者聯(lián)系郵箱：luoyidan@xjbnews.com

新京報(bào)貝殼財(cái)經(jīng)記者羅亦丹

校對(duì) 柳寶慶

相關(guān)標(biāo)簽:

評(píng)論

消滅零回復(fù)

實(shí)測阿里云大模型“通義千問”：邏輯問題能分清 時(shí)事新聞易出錯(cuò)

站長推薦

實(shí)測阿里云大模型“通義千問”：邏輯問題能分清時(shí)事新聞易出錯(cuò)