摘要:美團(tuán)作為全球最大的本地生活服務(wù)平臺,擁有由遍布全國的市場人員所拍攝的眾多門臉招牌圖片數(shù)據(jù)。中文在實(shí)際應(yīng)用場景的表現(xiàn)并不樂觀。美團(tuán)今年聯(lián)合國內(nèi)外知名科研機(jī)構(gòu)和學(xué)者,提出了中文門臉招牌文字識別比賽。是難得的用于研發(fā)和評估中文識別技術(shù)的數(shù)據(jù)集。
美團(tuán)作為全球最大的本地生活服務(wù)平臺,擁有由遍布全國的市場人員所拍攝的眾多門臉招牌圖片數(shù)據(jù)。每張圖片都是由全國的不同個人,采用不同設(shè)備,在不同地點(diǎn),不同時間和不同環(huán)境下所拍攝的不同目標(biāo),是難得的可以公正評價算法魯棒性和識別效果的圖片數(shù)據(jù),挑戰(zhàn)也非常大。
近年來業(yè)界圍繞著文字檢測和文字識別提出了許多有效的算法和技術(shù)方案。由于之前公開的數(shù)據(jù)集普遍以英文為主,因此所提出的技術(shù)方案對中文特有問題關(guān)注不足。表現(xiàn)在以中文為主的實(shí)際應(yīng)用場景中,這些技術(shù)方案的結(jié)果與應(yīng)用預(yù)期差距較大。以美團(tuán)掌握的某典型中文圖片數(shù)據(jù)為例,在6000張圖的圖片數(shù)據(jù)集上(已去除文字無法辨識的圖片),測試了國內(nèi)最知名的三個AI開放平臺,按字段統(tǒng)計識別率分別是94%,91% 和 86%,經(jīng)過努力我們也只達(dá)到 98%。中文OCR在實(shí)際應(yīng)用場景的表現(xiàn)并不樂觀。
在此次 ICDAR2019上,我們挑選出很能代表中文特點(diǎn)的餐飲商家的門臉招牌圖片來組織競賽,這些招牌上的文字存在中文特有的設(shè)計和排版,同時也兼有自然場景文字識別中普遍存在的拍照角度、光照變化等干擾因素。我們希望通過競賽引起同行們對中文識別的關(guān)注,群策群力解決中文識別的實(shí)際問題。
會議與大賽介紹國際文檔分析與識別國際會議 (International Conference on Document Analysis and Recognition,ICDAR)是由國際模式識別學(xué)會(IAPR)組織的專業(yè)會議之一,專注于文本領(lǐng)域的識別與應(yīng)用。ICDAR大會每兩年舉辦一次,目前已發(fā)展成文字識別領(lǐng)域的旗艦學(xué)術(shù)會議。為了提高自然場景的文本檢測和識別水平,國際文檔分析和識別會議(ICDAR)于2003年設(shè)立了魯棒文本閱讀競賽(“Robust Reading Competitions”)。至今已有來自89個國家的3500多支隊(duì)伍參與。
ICDAR 2019將于今年9月20-25日在澳大利亞悉尼舉辦。 美團(tuán)今年聯(lián)合國內(nèi)外知名科研機(jī)構(gòu)和學(xué)者,提出了"中文門臉招牌文字識別"比賽(ICDAR 2019 Robust Reading Challenge on Reading Chinese Text on Signboards)。
組織者王棟、張睿、劉曦、周永生,美團(tuán)
白翔、廖明輝、楊明錕,華中科技大學(xué)
Baoguang Shi, Microsoft (Redmond,USA)
Shijian Lu, Nanyang Technological University (Singapore)
Dimosthenis Karatzas,Computer Vision Centre,UAB(Spain)
C. V. Jawahar,IIIT Hyderabad(India)
數(shù)據(jù)集介紹美團(tuán)本次公開的數(shù)據(jù),由遍布全國的市場人員所拍攝的眾多門臉招牌圖片組成,共25000張。每張圖片是由完全獨(dú)立的不同個人,采用不同設(shè)備,在不同地點(diǎn),不同時間和不同環(huán)境下所拍攝的不同商家。該數(shù)據(jù)集以中文文字為主,也包含一定數(shù)量的英文和數(shù)字,英文和數(shù)字的占比介于 10% 和 30% 之間。標(biāo)注內(nèi)容比較完備,每張圖片均標(biāo)注了單個字符的位置和文本,以及各字符串的位置和文本。是難得的用于研發(fā)和評估中文識別技術(shù)的數(shù)據(jù)集。其中,20000張圖片用于訓(xùn)練,2000張用于驗(yàn)證,3000張用于測試。
比賽內(nèi)容本次門臉招牌識別,共定義了 4 個任務(wù),分別如下:
TASK 1:招牌端到端文字識別
TASK 2:招牌文字行定位
TASK 3:招牌區(qū)域內(nèi)單字識別
TASK 4:招牌區(qū)域內(nèi)字符串識別
獎勵方式頒發(fā)獎狀:按照最終成績進(jìn)行排名,以從高至低順序依次選取前三名,頒發(fā)獎狀。
比賽獎金:從高至低順序選取前三名參賽方為學(xué)校及科研院所等非盈利機(jī)構(gòu)。
獎金詳細(xì)如下:
2019年3月1日:報名通道開放
2019年3月18日:訓(xùn)練數(shù)據(jù)集開放
2019年4月15日:測試數(shù)據(jù)集分批開放
2019年4月16日:提交通道開放
2019年4月30日:提交截止日期
2019年5月10日:比賽最終報告提交
2019年9月20日:ICDAR 2019 大會召開
參賽報名掃描下方二維碼,直接進(jìn)入報名鏈接報名。
報名鏈接地址: http://rrc.cvc.uab.es/?ch=12
報名鏈接二維碼:
參賽答疑郵箱:mtdptech@meituan.com(郵件標(biāo)題請注明 “ICDAR2019”)
加入?yún)①惤涣魑⑿湃?/p>
步驟1:微信添加 “MTDPtech02” 為好友(昵稱:美美),或掃描下方二維碼直接添加:
步驟2:回復(fù)美美 “ICDAR2019”,則會自動將您加入ICDAR2019-ReCTS技術(shù)交流群
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/17937.html
摘要:月日,各項(xiàng)競賽的排名將決定最終的成績排名。選手通過訓(xùn)練模型,對虛擬股票走勢進(jìn)行預(yù)測。冠軍將獲得萬元人民幣的獎勵。 showImg(https://segmentfault.com/img/bVUzA7?w=477&h=317); 2017年9月4日,AI challenger全球AI挑戰(zhàn)賽正式開賽,來自世界各地的AI高手,將展開為期三個多月的比拼,獲勝團(tuán)隊(duì)將分享總額超過200萬人民幣的...
摘要:基于深度學(xué)習(xí)的語義匹配語義匹配技術(shù),在信息檢索搜索引擎中有著重要的地位,在結(jié)果召回精準(zhǔn)排序等環(huán)節(jié)發(fā)揮著重要作用。在美團(tuán)點(diǎn)評業(yè)務(wù)中主要起著兩方面作用。 寫在前面美團(tuán)點(diǎn)評這兩年在深度學(xué)習(xí)方面進(jìn)行了一些探索,其中在自然語言處理領(lǐng)域,我們將深度學(xué)習(xí)技術(shù)應(yīng)用于文本分析、語義匹配、搜索引擎的排序模型等;在計算機(jī)視覺領(lǐng)域,我們將其應(yīng)用于文字識別、目標(biāo)檢測、圖像分類、圖像質(zhì)量排序等。下面我們就以語義匹配、圖...
閱讀 3322·2021-11-25 09:43
閱讀 3007·2021-10-15 09:43
閱讀 1964·2021-09-08 09:36
閱讀 2918·2019-08-30 15:56
閱讀 741·2019-08-30 15:54
閱讀 2683·2019-08-30 15:54
閱讀 2971·2019-08-30 11:26
閱讀 1236·2019-08-29 17:27