91中文字幕在线播放_中文字幕免费播放_av污在线观看_日韩乱码人妻无码中文字幕_人妻夜夜爽天天爽_中文字幕欧美在线观看_91精品人妻一区二区_尤物国产在线观看_中文字幕在线2018_午夜激情小视频

CAA科普

Popular science work

解決AI“高分低能” 需要升級的是考核機制

日期:2022-07-08 14:22

   目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現優異,但實際應用中卻還會犯一些非常基礎的錯誤。

  近日,有媒體報道,目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現優異,但實際應用中卻還會犯一些非常基礎的錯誤。這種沉迷刷榜,忽略實用性質的行為造成了部分AI模型“高分低能”的現象。那么,對于AI發展而言,基準測試是否必要?在實際應用中,基準測試哪些問題有待改進完善呢?

  AI模型哪家好,基準測試來說話

  AI模型應該如何衡量其性能?

  “目前AI模型能力的高低取決于數據,因為AI的本質是學習數據,輸出算法模型。為了公平衡量AI能力,很多機構、企業甚至科學家會收集、設計不同的數據集,其中一部分喂給AI訓練,得到AI模型,另外一部分數據用于考核AI模型的能力,這就是基準測試。”近日,西安電子科技大學電子工程學院教授吳家驥接受科技日報記者采訪時表示。

  吳家驥介紹說,機器學習越來越多地用于各種實際應用場景,例如圖像和語音識別、自動駕駛汽車、醫學診斷等。因此,了解其在實踐中的行為和性能變得非常重要。其魯棒性和不確定性的高質量估計對于許多功能至關重要,尤其是在深度學習領域。為掌握模型的行為,研究人員要根據目標任務的基線來衡量其性能。

  2010年,基于ImageNet數據集的計算機視覺競賽的推出,激發了深度學習領域一場算法與數據的革命。從此,基準測試成為衡量AI模型性能的一個重要手段。微軟公司的計算機科學家馬塞洛·里貝羅表示,基準測試應該是從業者工具箱中的一個工具,人們用基準來代替對于模型的理解,通過基準數據集來測試“模型的行為”。

  例如,在自然語言處理領域,GLUE科研人員讓AI模型在包含上千個句子的數據集上訓練,并在9個任務上進行測試,來判斷一個句子是否符合語法,并分析情感,或者判斷兩個句子之間是否是邏輯蘊涵等,一度難倒了AI模型。隨后,科研人員提高了基準測試難度,一些任務要求AI模型不僅能夠處理句子,還要處理來自維基百科或新聞網站的段落后回答閱讀理解問題。僅經過1年的發展,AI模型的性能從不到70分輕松達到90分,超越了人類。

  吳家驥表示:“科學研究要有科學問題、方法、計算、試驗對比等要素。因此在進行科學研究,包括人工智能的科研中,也必須有計算與試驗對比,也就是說AI算法的能力應該是可測量的,目的是驗證研究方法的可行性、有效性。因此,基準測試很有必要,這樣才可以公平驗證AI算法能力的高低好壞,避免各說各話,‘王婆賣瓜自賣自夸’。”

  算法最終服務實踐,而非刷榜

  有人說,高分是AI模型的興奮劑。于是,有的人工智能為了取得好成績而頻頻刷榜。

  微軟公司2020年發布報告指出,包括微軟、谷歌和亞馬遜在內的各種sota模型包含諸多隱含錯誤,比如把句子里的“what's”改成“what is”,模型的輸出結果就會截然不同,而在此前,從沒有人意識到這些曾被評價還不錯的商業模型竟會在應用中如此糟糕。顯然,這樣訓練出的AI模型就像一個只會考試、成績優異的學生,可以成功通過科學家設置的各種基準測試,卻不懂為什么。

  “為了獲得好成績,研究人員可能會使用特殊的軟硬件設置對模型進行調整和處理,讓AI在測試中表現出色,但這些性能在現實世界中卻無法施展。”西安電子科技大學研究員尚坤指出。

  在智能手機領域,我們談及手機的使用體驗時一般都不免會涉及手機的性能表現,這些性能通常會用跑分成績來表現。然而,我們常常會遇到一款手機的跑分成績處于排行榜領先水平,但是在實際使用過程中卻出現動畫掉幀、頁面滑動卡頓、應用假死等的現象。全球頂級評測網站AnandTech的一篇報道曾對這種現象提出質疑,指出某品牌手機跑分時啟動了“性能模式”,而在平時的使用中“性能模式”很少被調用開啟。這種處理方式雖然能夠獲得高跑分,但是不能模擬用戶真實的使用情景,這讓基準測試不具有參考意義。

  尚坤認為,針對上述問題,改進基準的方法主要有:一種是增加更多的數據集,讓基準變得更難。用沒有見過的數據測試,這樣才能判斷AI模型是否能夠避免過擬合。研究人員可創建一個動態數據收集和基準測試平臺,針對每個任務,通過眾包的方式,提交他們認為人工智能模型會錯誤分類的數據,成功欺騙到模型的樣例被加入基準測試中。如果動態地收集數據增加標注,同時迭代式的訓練模型,而不是使用傳統的靜態方式,AI模型應該可以實現更實質性的進化。

  尚坤說,另一種是縮小實驗室內數據和現實場景之間的差距。基線測試無論分數多高,還是要用實際場景下的數據來檢驗,所以通過對數據集進行更貼近真實場景的增強和擴容使得基準測試更加接近真實場景。如ImageNet-C數據集,可根據16種不同的實際破壞程度對原有的數據集進行擴充,可以更好模擬實際數據處理場景。

  應用廣泛,需盡快建立國家標準

  美國麻省理工學院Cleanlab實驗室的研究指出,常用的10個作為基準的數據集中,有超過3%的標注是錯誤的,基于這些基準跑分的結果則無參考意義。

  “如果說,基準測試堪稱人工智能領域的‘科舉制’,那么,‘唯分數論’輸贏,是不可能訓練出真正的好模型。要打破此種現象,一方面需要采用更全面的評估方法,另一方面可以考慮把問題分而治之,比如用多個AI模型解決復雜問題,把復雜問題轉化為簡單確定的問題。簡單且經過優化的基線模型往往優于更復雜的方法。谷歌的研究人員為常見的AI任務引入了不確定性基線庫,來更好評估AI應用的穩健性和處理復雜不確定性的能力。”遠望智庫人工智能事業部部長、圖靈機器人首席戰略官譚茗洲指出。

  雖然行業正在改變對于基準的態度,但目前基準測試研究仍然是一個小眾研究。谷歌在一份研究中采訪了工業界和學術界的53位AI從業者,其中許多人指出,改進數據集不如設計模型更有成就感。

  譚茗洲表示,AI應用基準研究是構建國內統一大市場的內在需要,當前AI已經在國計民生的各類領域中得到廣泛應用,更需要設立標準對AI模型進行全面有效的評估,片面追求和采用高分AI模型,可能會讓模型在復雜極端場景下出現“智障”行為,并且可能由于訓練和推理性能的低效,造成不良社會影響、經濟損失和環境破壞。

  譚茗洲強調,AI應用基準研究關乎國家戰略。針對重要領域,建立我國自己的AI基準測試標準、AI數據集、AI模型評估標準等迫在眉睫。

  據了解,西安電子科技大學的DvcLab也在AI基準測試這個領域進行了前瞻性研究,特別是針對AI應用基準測試中數據集的整體質量與動態擴展兩個關鍵問題,正在開發可在線協作的數據標注與AI模型研發托管項目,并計劃今年陸續開源,正在為構建國家AI基準評估標準體系進行積極探索。


來源:科技日報

久久久久久久久久一区二区| 一级黄色小视频| zjzjzjzjzj亚洲女人| 久久精品视频5| 中文字幕乱码无码人妻系列蜜桃| 国产伦精品一区二区三区妓女下载| 天天综合成人网| 国产一级生活片| 亚洲天堂视频在线| 欧美性猛交xxxx乱大交少妇| www.国产成人| 在线观看免费的av| 欧美成人福利在线观看| 国产白袜脚足j棉袜在线观看| 污视频在线免费观看| 久久精品—区二区三区舞蹈| 91人人澡人人爽| 一区二区三区免费播放| 免费黄色片网站| 国产精品久久久久久久久久久久久久久久久 | www.久久久精品| 在线观看免费中文字幕| 欧美天堂在线视频| 国产一级做a爰片久久| 一本色道久久亚洲综合精品蜜桃| 色婷婷综合视频| 另类小说色综合| 国产毛片久久久久久久| 91性高潮久久久久久久| 免费观看一级一片| 国产女18毛片多18精品| 91香蕉视频在线观看视频| 在线 丝袜 欧美 日韩 制服| 欧美熟妇激情一区二区三区| 国产日本精品视频| 国产av 一区二区三区| 亚洲欧洲久久久| 亚洲第一成人av| 日韩免费不卡视频| 欧美另类69xxxx| 玖玖爱这里只有精品| 国产综合精品视频| 国产欧美视频一区| 国产乱人乱偷精品视频a人人澡| 6080国产精品| 91久久精品无码一区二区| 中文字幕在线有码| 亚洲黄色a v| 最近中文字幕在线mv视频在线| 婷婷伊人五月天| 五月天综合在线| 污污视频网站免费观看 | 中文av免费观看| 校园春色 亚洲| 一级做a爱视频| 亚洲二区在线播放| 亚洲精品乱码久久久久久久久久久久 | 国产在线免费看| 国产特级aaaaaa大片| 国产午夜在线播放| 久草视频免费在线| 欧美三级网站在线观看| 日本不卡视频一区| 无码人妻丰满熟妇精品| 亚洲成人黄色av| 中文字幕资源网| caopor在线| 国产精品国产三级国产专业不 | 欧美大片久久久| 人妻互换一二三区激情视频| 日本中文字幕在线不卡| 无码精品视频一区二区三区| 亚洲av熟女高潮一区二区 | 黄色av网址在线观看| 美女av免费看| 手机看片久久久| 亚洲精品18p| 国产3p在线播放| 精品国产九九九| 日本免费一区视频| 在线免费观看一区二区| jlzzjlzz亚洲女人18| 国产精品久久久免费观看| 国产又大又黑又粗免费视频| 久久久久麻豆v国产| 少妇网站在线观看| 亚洲精品毛片一区二区三区| 999免费视频| 精品美女久久久久| 日韩精品视频免费看| 亚洲精品乱码久久久久久动漫| 丰满大乳奶做爰ⅹxx视频| 精品久久久久久中文字幕2017 | 免费一级特黄特色大片| 亚洲 欧美 激情 另类| 91日韩精品视频| 久久久久亚洲av无码麻豆| 特级西西444www大精品视频免费看| 亚洲免费黄色网址| 久草视频在线免费看| 婷婷色在线观看| 波多野结衣激情视频| 欧美色图亚洲天堂| 天天综合久久综合| 97人人澡人人爽人人模亚洲| 久久久国产高清| 在线视频欧美亚洲| 国产一区二区三区三州| 午夜时刻免费入口| 国产无遮挡猛进猛出免费软件| 日韩av一卡二卡三卡| 亚洲在线精品视频| 另类小说色综合| 99re这里只有| 日韩精品――中文字幕| 国产成人免费看一级大黄| 日韩高清第一页| 丰满人妻一区二区三区无码av| 日韩精品国产一区二区| 国产91av在线播放| 午夜激情福利电影| 久久国产劲爆∧v内射| 中文字幕在线播放视频| 免费观看a级片| www.av在线.com| 五月天婷婷在线播放| 国产露脸无套对白在线播放| 亚州av综合色区无码一区| 国产主播在线观看| 亚洲综合久久av一区二区三区| 欧美一区二不卡视频| 成人手机在线免费视频| 一区二区xxx| 麻豆一区二区三区精品视频 | 99草在线视频| 亚洲第一综合网| 欧美成欧美va| 国产女人18毛片水真多| 亚洲一级免费观看| 少妇视频在线播放| 久久久久在线视频| 福利一区二区三区四区| 中文字幕线观看| 日日摸天天添天天添破| 九九精品视频免费| 高潮一区二区三区乱码| 亚洲国产第一区| 熟妇人妻中文av无码| 久久久久久久久久久久久av | 在线精品免费视| 日本中文字幕在线观看视频| 久久久久久国产精品日本| 99视频国产精品免费观看a| 亚洲第一色av| 五月天婷婷在线观看视频| 欧美日韩人妻精品一区在线| 精品免费久久久| 国产又大又黄的视频| 国产美女喷水视频| 国产精品二区视频| 国产富婆一级全黄大片| 一本一道人人妻人人妻αv| 午夜视频1000| 亚洲av午夜精品一区二区三区| 日韩黄色片网站| 日本精品在线免费观看| 九九热国产视频| 韩国三级丰满少妇高潮| 国产内射老熟女aaaa∵| 国产大片一区二区三区| 顶臀精品视频www| jlzzjlzzjlzz亚洲人| eeuss中文字幕| 波多野结衣一二三四区| www.黄色av| 国产乱国产乱老熟300| 国产精品99精品| 国产免费无遮挡| 国产一级特黄毛片| 久草视频手机在线观看| 蜜臀一区二区三区精品免费视频| 久久精品一级片| 欧美国产日韩另类| 色婷婷在线视频观看| 天天爽夜夜爽一区二区三区| 亚欧在线观看视频| 亚洲一级黄色录像| 国产黄色片av| 精品亚洲视频在线| 人妻偷人精品一区二区三区 | 色婷婷狠狠18禁久久| 午夜视频福利在线| 中文字幕人妻一区二区三区| 亚洲精品视频91| 高清一区二区视频| 久久免费视频精品| 丝袜 亚洲 另类 欧美 重口| 一级做a爱片性色毛片| 亚洲午夜久久久久久久国产| www.亚洲自拍| 久久久久久久伊人| 天天摸天天干天天操| 中文字幕在线观看视频www| 97成人在线观看| 国产又黄又粗又长| 色18美女社区| 亚洲精品久久一区二区三区777| www.国产视频.com| 免费中文字幕在线观看| 天天色综合天天色| 99精品欧美一区二区| 国产午夜在线播放| 色姑娘综合天天| 9i精品福利一区二区三区| 国产又黄又粗又长| 亚欧洲精品在线视频| 夜夜嗨aⅴ一区二区三区| 国产av一区二区三区| 免费在线观看你懂的| 中文字幕永久在线视频| 国产伦精品一区二区三区88av| 欧美一级黄视频| 亚洲精品视频网| 九九热只有精品| 在线xxxxx| 国产综合视频在线| 在线精品视频播放| 国精品人伦一区二区三区蜜桃| 天堂中文字幕av| 国产99对白在线播放| 日本精品一区二区在线观看| 亚洲欧美在线视频免费| 久久亚洲精品国产| 亚洲一区二区蜜桃| 青青草激情视频| 超碰人人草人人| 色噜噜噜噜噜噜| 国产免费一区二区三区四区五区| 午夜欧美福利视频| 久久av无码精品人妻系列试探| 亚洲aⅴ乱码精品成人区| 国产一线在线观看| 亚洲乱熟女一区二区| 伦理片一区二区| 草草地址线路①屁屁影院成人| 色国产在线视频| 国内精品久久久久久久久久久| 真实新婚偷拍xxxxx| 久久久久亚洲AV成人| 91久久久久国产一区二区| 日韩精品电影一区二区| 国产欧美一区二区三区在线观看视频| 午夜婷婷在线观看| 久久久久久久久久毛片| 91亚洲国产成人久久精品麻豆| 呻吟揉丰满对白91乃国产区| 国产视频第二页| 182在线视频| 亚州国产精品视频| 欧美一级一区二区三区| 国产免费美女视频| 97免费观看视频| 在线观看一二三区| 日本一区二区不卡在线| 国内精品福利视频| 波多野结衣一区二区三区四区| 在线中文字日产幕| 手机在线精品视频| 免费在线观看污| 久久国产精品二区| 国产手机视频在线| www.日韩一区| 亚洲精品www.| 人妻av一区二区| 精品国产xxx| 成人h动漫精品一区二区下载 | 精品国产999久久久免费| www.夜夜爽| 一二三不卡视频| 亚洲精品无码久久久| 天天色天天综合| 神马久久久久久久久久久| 男人天堂综合网| 久久精品国产亚洲av高清色欲| 国产精品自拍视频一区| 成人精品在线播放| av最新在线观看| av手机在线播放| 97成人在线观看| www.久久久精品| wwwav在线播放| xxx中文字幕| 成人午夜淫片100集| www.色播.com| 福利一区二区三区四区| 福利网址在线观看| 国产黄色片在线| 国产三区在线播放| 精品国产欧美日韩不卡在线观看| 国产又爽又黄的视频| 国产午夜精品理论片在线| 国产人妻精品久久久久野外| 国产精久久一区二区三区| 国产精品白浆一区二小说| 国产精品一区二区三区在线免费观看 | 无码人妻精品一区二区蜜桃色欲| 三上悠亚在线一区| 婷婷激情五月网| 中文字幕制服丝袜| 99热超碰在线| 国产嫩bbwbbw高潮| 久久久全国免费视频| 日本黄色www| 天天操精品视频| 中文字幕第66页| 亚洲天堂久久久久| 不卡的一区二区| 国产亚洲小视频| 欧美性猛交xxxx乱大交91| 无码aⅴ精品一区二区三区| 中文人妻一区二区三区| 91精品国产综合久久久蜜臀九色| 成人午夜视频在线播放| 国产又大又黄视频| 日本在线视频免费| 中文字幕av第一页| 不卡av电影在线| 久草手机视频在线观看| 天堂av免费在线| 亚洲欧美日韩综合网| 国产福利资源在线| 免费在线黄色网| 中文字幕一区二区人妻电影| theporn国产精品| 久久久久久成人网| 亚洲av人无码激艳猛片服务器| 亚洲综合精品视频| 精品999在线| 一区两区小视频| 丰满熟妇乱又伦| 免费中文字幕日韩| 亚洲欧美高清在线| 国产三级在线观看完整版| 任你躁av一区二区三区| 中文字幕影片免费在线观看| 国产精品成人免费一区二区视频| 潘金莲一级淫片aaaaaaa| 中文字幕一区二区人妻电影| 国产精品成人久久| 天堂av在线网站| www.com在线观看| 侵犯稚嫩小箩莉h文系列小说| 亚洲欧美黄色片| 久久日免费视频| 亚洲高清在线观看视频| 激情五月婷婷小说| 伊人久久一区二区三区| 国产精品视频久久久久久| 三级黄色在线观看| 国产精品热久久| 性色av无码久久一区二区三区| 国产精品jizz| 在线观看一区二区三区四区| 国产一国产二国产三| 亚洲av无码成人精品区| 国产一区二区视频在线观看免费| 五月天av网站| 精品人妻一区二区三区免费看| 亚洲第一中文av| 久久久国产一级片| 91国产丝袜播放在线| 人成免费在线视频| 国产xxxxxxxxx| 中文字幕+乱码+中文乱码www | 久久久久久久久久影院| 亚洲色图 校园春色| 青花影视在线观看免费高清| www.日本一区| 中文 欧美 日韩| 日本精品一区在线| 国产一区二区在线观看免费视频| 中文字幕在线一| 日本一二三区不卡| 黄色网址中文字幕| av天堂一区二区三区| 天堂网中文在线观看| 精品人妻人人做人人爽夜夜爽| 妖精视频一区二区| 亚洲va在线va天堂va偷拍| 久久青青草原亚洲av无码麻豆| 亚洲色图狠狠干| 一区二区的视频| 日韩成人精品视频在线观看| 国精产品乱码一区一区三区四区 | 亚洲另类在线观看| 天堂国产一区二区三区| 精品人妻无码一区二区三区蜜桃一 | 精品一区二区三区人妻| 国产67194| 91精品国产高潮对白|