前景提要
8 月 25 日百度大腦語言與知識技術峰會在線上召開,百度聯合中國計算機學會、中國中文信息學會共同發布“千言”數據共建計劃。同時,百度技術委員會主席吳華發布了算力共享計劃,希望通過數據集的共建與算力的共享,與學界、產業界共同推進技術進步。
據了解,“千言”項目第一期已涵蓋 7 大任務、20 余個中文開源數據集,由百度攜手哈工大、清華、中科院信息工程研究所等在內的 10 所頂級高校、企業共同建設完成。
截至目前,第一期千言項目已涵蓋了 7 大任務、20 余個中文開源數據集,包括開放域對話、閱讀理解、機器同傳、情感分析、語義解析、信息抽取和文本相似度等。
吳華表示,在未來 3 年中,千言計劃面向超 20 個任務,收集和建設不少于 100 個中文自然語言處理數據集,覆蓋多個領域。