在信息科技轉向物聯網之際,一個全新的萬物互聯時代即將到來,到2020年將有高達幾百億的智能設備連接互聯網。
我們希望通過大數據交易行業現狀的分析與梳理,探索我國未來大數據交易產業健康良性的發展之路,為國家大數據應用和產業發展做出積極貢獻。
從可穿戴設備到智能家居,再到智慧城市、互聯工廠等等,這些智能設備產生的海量數據在更為先進的算法及運算能力推動下將為社會創造出更多新的價值。
大數據產業已形成龐大的產業生態,我國大數據產品和服務業務收入規模已超萬億元。
數據集作為大數據產業的基礎資料,已經成為企業核心競爭力的一個重要方面。
數據集的構成一方面是縱向同類數據大量的聚集,以生成更為精準的模型,比如醫學影像領域的智能輔助閱片軟件,當有越多同一病種大量患者的醫學影像作為訓練集時,模型輸出的結果也將更為準確;
另一方面是橫向跨領域的數據集合,以塑造出多維度的立體模型,如同時分析同一用戶的個人基礎數據、銀行數據、運營商數據、社交數據等等,可以建立更為立體豐富的用戶畫像。
但數據體系是多樣化的,不同維度的數據留存在各行各業,如電信、交通、消費、金融、制造等等。
數據的存儲及管理形式也是分散的,如人口、自然資源等相關基礎數據由政府各部門統籌管理使用;
行業領域數據由企業和政府分別管理使用,如銀行存儲和管理賬戶數據、流水情況;
運營商存儲和管理用戶的通訊數據和位移數據,社交網絡存儲和管理的是用戶的社交數據等等。
不同行業之間,同行業內不同企業之間,甚至同一企業不同業務部門之間的數據孤島現象普遍存在。
大型企業擁有大量資源來整合數據:
亞馬遜已抓取50億網頁的數據,其物流中心有超過50萬張產品的JPEG圖像和相應的JSON元數據文件,每日監測全球廣播、印刷物、網絡新聞的記錄超過40億份。
谷歌擁有最大存儲庫的數據集之一,數據達10-15Exabyte;
阿里巴巴的數據存儲已經逼近EB(大數據存儲單位)級別,部分單張表每天的數據記錄數高達幾千億條。
巨頭仍在不惜重金通過投資并購以獲得數據。
亞馬遜2017年6月宣布以130億美元并購知名有機超市Whole Foods,可說是一項著眼于大數據的交易;
IBM 2016年2月以26億美元的價格收購醫療保健和分析提供商Truven Health Analytics,此舉為2年內IBM進行的第四筆與健康數據有關的收購,總投入超過40億美元;
阿里巴巴早已把自己定位為數據公司,阿里資本在文化娛樂、金融領域、電子商務三個方向投資重金,分別高達300億、269億、223億,連同其他業務,早已成為國內最大的數據運營者之一。
對于無力通過自建/投資并購方式獲取數據的廣大中小企業,數據購買及交易是其備選渠道,但應注意相關法律風險。
目前針對用戶信息的非法收集、竊取、販賣和利用行為猖獗,中國互聯網協會發布的《中國網民權益保護調查報告(2016)》顯示,我國6.88億網民因垃圾短信、詐騙信息、個人信息泄露等造成的經濟損失達915億元,人均為133元。
初創公司為更加合理的獲取數據,除主營業務外,會開展一部分業務用于獲取數據、留存數據,如醫療行業內,開展輔助診斷業務的公司也會同步發展一些協同的科研項目或相關的醫療資源管理項目。
除數據獲取挑戰外,因各企業各部門對數據的留存、處理方式存在差異,企業也將面臨較高的數據獲取后的整合成本。
自2015年,大數據上升為國家發展戰略開始,國家政策不斷引導、鼓勵和推動發展大數據交易機制。
以在合法、合規,保障數據安全的前提下,建設完善基礎設施,解決數據交易過程中公允定價、交易標準、數據傳輸等關鍵問題。
全國各地相繼成立大數據交易所,包括貴陽大數據交易所、上海數據交易中心、武漢東湖大數據交易中心等等,以數據堂、美林數據、愛數據等為代表的數據資源企業也取得快速發展。
陽光的數據交易逐步落地,隨著數據交易類型的日益豐富、交易環境的不斷優化、交易規模持續擴大,我國數據互聯、變現能力顯著提高。
《2016年中國大數據產業白皮書》中預計2020年國內大數據交易市場規模將達到545億元,相對集中分布在政府、金融、教育、電信、醫療等行業。
數據交易業務目前主要有兩種業務模式,一種是以貴陽大數據交易所、上海數據交易中心等為代表的平臺模式,另一種是以數據堂等為代表的自營模式。
在平臺模式下,平臺本身不擁有數據,而是通過讓供需雙方加入平臺。
供方發布數據、需求方提交數據需求,平臺發揮數據質量認證、數據格式標準化、數據金融工具的作用,提供數據脫敏、質量控制、安全控制等基礎服務,數據清洗、建模、分析、可視化技術等增值服務,協助數據供方將數據變成可以交易的資產。
交易平臺同時提供交易定價、支付結算、數據傳輸等服務,保障數據供需雙方交易完成并獲得交易傭金。
在自營模式下,企業通過眾包、外購、公共機構共享、網絡采集等方式獲得數據,利用自身技術對數據進行清洗、建模、可視化等,建立數據產品,提供予數據需求方。
自營模式下,企業可以通過擴大數據獲取、深度挖掘數據價值以豐富數據產品及提升單數據價值而提升數據服務能力;但由于在自營模式下數據將經企業流轉,企業應注意防范數據泄漏及隱私保護相關法律風險。
數據交易仍處起步階段,面臨基礎配套不完善、市場及產品分散等挑戰。
1配套措施不夠完善
目前國家層面數據交易相關明確的法律法規尚未推出,也缺少專門的監管部門,這導致地方各類型的數據交易平臺在建設過程中自行摸索標準體系,在發展進程上有所顧忌,謹慎前行,發展速度受到一定程度的影響。
2市場碎片化程度比較高
根據《中國大數據產業生態白皮書》的統計,51.61%的數據交易平臺收入在500萬以下,收入1億元以上的數據交易平臺僅占6.45%。
多個分割的市場不利于數據大量的匯聚,不同交易平臺之間數據缺乏流動性,難以真正實現平臺化、規模化、產業化的發展,難以實現數據交易平臺的優勢。
3數據產品碎片化程度比較高
以發展階段相對領先的貴陽大數據交易所為例,截至2017年10月,交易所交易額累積突破1.2億元,可交易數據產品4000個,可交易的數據總量超過150PB,即平均交易單品交易金額2萬/年,每PB產生交易額不足80萬元。
“粗放式”的原始數據產品難以滿足數據需求方個性化需求,數據需方面臨較大的數據整合成本,是導致該現象的主要原因。數據產品過低的交易規模和頻次也不利于數據平臺組織交易。
數據交易平臺正在探索靈活的產品形式,如華中大數據2016年7月上線了以“活數據”交易為主的大數據交易平臺。
“活數據”即實時數據,API是實時數據接口,數據提供方通過接口調用的方式向需要方提供,同時華中大數據交易平臺上提供了API調試工具、接口地址和統一格式的請求參數等信息,方便數據需求方快速理解和使用。
上海數據交易中心于2017年發布數據金融產品——CRP(中國企業信用風險畫像庫),CRP使用方可以在平臺上選擇高質量數據,并通過一點實時數據接口,從多源供方獲得自身業務運行所需的數據,用于訓練調校業務算法模型,多維度刻畫企業信用風險,為金融業務持續發展提供基礎數據服務。
隨著數據交易需求不斷激增,相關政策的逐漸落地,市場必將出現引領行業發展及整合市場的數據交易平臺。
在保障數據安全的前提下,真正實現數據的采集、處理、定價、傳輸等,充分發揮數據交易平臺的實質優勢。
數據交易平臺將通過結合自身資源情況探索個性化的發展道路,一方面可拓寬數據來源渠道,激活“長尾數據”,豐富數據產品提供方式,增加供方數據特色,另一方面可能圍繞數據需方需求劃分層級,通過“深加工”的產品形式,向相對集中的產品需求提供個性化定制服務等,降低數據需方整合數據成本的同時提高單位數據的交易頻次、交易規模,提升數據交易平臺的競爭優勢。
國務院總理李克強在中國大數據產業峰會上曾表示,中國超過80%的數據在政府手中。因此各地數據交易平臺建設也離不開政府的支持。
聯新資本于2016年參與發起成立了上海數據交易中心。
上海數據交易中心是經上海市人民政府批準,上海市經濟和信息化委、上海市商務委聯合批復成立的國有控股混合所有制企業。
作為上海市大數據發展“交易機構+創新基地+產業基金+發展聯盟+研究中心”五位一體規劃布局內的重要功能性機構,承擔著促進商業數據流通、跨區域的機構合作和數據互聯、政府數據與商業數據融合應用等工作職能。
聯新資本將同上海數據交易中心一起推動泛長三角地區乃至全國數據交易機構的互聯互通和深度合作,形成健全規范的商業數據流通、交換機制,共同促進商業數據資產流通、充分釋放數據資源衍生產品紅利,為國家大數據應用和產業發展做出積極貢獻。