崗位職責(zé)
1.整理和預(yù)處理多模態(tài)語料庫和結(jié)構(gòu)化知識源。
2.構(gòu)建、擴(kuò)展和維護(hù)領(lǐng)域本體 / 知識圖譜庫。
3.確保數(shù)據(jù)質(zhì)量、版本控制和沿襲追蹤。
4.搭建強(qiáng)大的 ETL 管道,確保原始源(如網(wǎng)絡(luò)爬蟲、數(shù)據(jù)庫、PDF)被系統(tǒng)地?cái)z取、清理、規(guī)范化和格式化,以用于神經(jīng)訓(xùn)練和符號規(guī)則編碼。
5.將異構(gòu)數(shù)據(jù)集(非結(jié)構(gòu)化文本語料庫、結(jié)構(gòu)化事實(shí)、用戶日志)集中到一個(gè)集成存儲庫中,支持對訓(xùn)練數(shù)據(jù)和符號事實(shí)的高效查詢、切片和歷史跟蹤,啟用數(shù)據(jù)集的版本控制。
6.進(jìn)行知識圖譜構(gòu)建工作,將領(lǐng)域語義(實(shí)體、關(guān)系、本體)編碼為圖形形式,促進(jìn)文本衍生概念與結(jié)構(gòu)化符號的鏈接,通過在添加或更新事實(shí)時(shí)應(yīng)用模式驗(yàn)證和推理檢查,確保知識庫的一致性和連貫性。
任職要求
1.專業(yè)背景:計(jì)算機(jī)、數(shù)據(jù)科學(xué)、軟件工程等相關(guān)專業(yè)。
2.學(xué)歷要求:碩士學(xué)歷及以上;本科學(xué)歷如有優(yōu)秀項(xiàng)目經(jīng)驗(yàn)也可接受。
3.工作經(jīng)驗(yàn):至少 2 年相關(guān)項(xiàng)目經(jīng)驗(yàn),有重要項(xiàng)目突破經(jīng)歷可放寬至 1 年。
4.技能要求:具備 ETL(提取、轉(zhuǎn)換、加載)、數(shù)據(jù)倉庫、知識圖譜構(gòu)建經(jīng)驗(yàn),掌握 SQL/NoSQL、Apache Spark、Neo4j 或類似的圖形數(shù)據(jù)庫、數(shù)據(jù)清理、模式設(shè)計(jì)。
工作地點(diǎn):天津、杭州、珠海