網站首頁 教育 學前教育 精緻生活 飲食養生 命理 科普教育 金融 歷史 影視 數碼 熱門資訊
當前位置:生活百科站 > 歷史 > 

資料標註是做什麼的

欄目: 歷史 / 釋出於: / 人氣:1.55W

使用特定工具對影象、文字等進行處理的工作。

資料標註是使用特定工具對影象、文字等進行處理的工作。

1、分類標註:分類標註,就是我們常見的打標籤,從既定的標籤中選擇資料對應的標籤;

2、標框標註:機器視覺中的標框標註,就是框選要檢測的物件;

3、區域標註:相比於標框標註,區域標註要求更加精確,邊緣可以是柔性的等。

資料標註員可以說是AI消滅了一部分工作又創造出來的一種工作。在未來AI發展良好的前提下,資料的缺口一定是巨大的。可以預見3-5年內資料標註員的需求會一直存在。至於發展,其實所謂一些熟能生巧的工作,都是有被替代掉的風險的。深度學習解決的一件事情就是熟能生巧。在這個崗位上,其實你的一些想法就代表了AI的想法,AI會根據你標註的資料進行學習,想想還是有點成就感的。資料標註可以說是AI的入門級崗位,未來可轉向其他AI崗位。如專案實施顧問等,這就要求更多的工作技能,需要再工作中積累。

資料標註是做什麼的

要理解資料標註,得先理解AI其實是部分替代人的認知功能。回想一下我們是如何學習的,例如我們學習認識蘋果,那麼就需要有人拿著一個蘋果到你面前告訴你,這是一個蘋果。然後以後你遇到了蘋果,你才知道這玩意兒叫做“蘋果”。

類比機器學習,我們要教他認識一個蘋果,你直接給它一張蘋果的圖片,它是完全不知道這是個啥玩意的。我們得先有蘋果的圖片,上面標註著“蘋果”兩個字,然後機器通過學習了大量的圖片中的特徵,這時候再給機器任意一張蘋果的圖片,它就能認出來了。這邊可以順帶提一下訓練集和測試集的概念。

訓練集和測試集都是標註過的資料,還是以蘋果為例子,假設我們有1000張標註著“蘋果”的圖片,那麼我們可以拿900漲作為訓練集,100張作為測試集。機器從900張蘋果的圖片中學習得到一個模型,然後我們將剩下的100張機器沒有見過的圖片去給它識別,然後我們就能夠得到這個模型的準確率了。想想我們上學的時候,考試的內容總是不會和我們平時的作業一樣,也只有這樣才能測試出學習的真正效果,這樣就不難理解為什麼要劃分一個測試集了。

我們知道機器學習分為有監督學習和無監督學習。無監督學習的效果是不可控的,常常是被用來做探索性的實驗。而在實際產品應用中,通常使用的是有監督學習。有監督的機器學習就需要有標註的資料來作為先驗經驗。在進行資料標註之前,我們首先要對資料進行清洗,得到符合我們要求的資料。資料的清洗包括去除無效的資料、整理成規整的格式等等。具體的資料要求可以和演算法人員確認。

Tags:標註