數據專欄

智能大數據搬運工,你想要的我們都有

科技資訊:

科技學院:

科技百科:

科技書籍:

網站大全:

軟件大全:

  文/譚宵寒   來源:字母榜(ID:wujicaijing)   二季度財報發布當天,拼多多股價大跌 13% 多,質疑乃至恐慌呼嘯而來:這會是一場大雪崩的開始嗎?    字母榜深入研究了這份財報,謹慎認為,恐怕并非如此。   黃崢年初在 19 年 Q4 財報電話會議上說,“不要過高估計公司的用戶增長速度,長期來看,也不要低估公司 ARPU 的增長潛力?!?   這話放在拼多多股價飛漲、輕松翻倍的行情里,沒人信前半句;放在二季度財報發布之后,大家又不信后半句。 黃崢   財報發布之前,拼多多市值達到 1000 億美元,股價接近 100 美元, 如此體量的互聯網公司,鮮有不處于穩定發展狀態的。什么叫穩定發展狀態,就是未來預期穩定,但增長不會像初創期那樣狂飆突進。不管阿里還是亞馬遜,在 GMV 達到拼多多如今的體量后,都沒有實現過超出一倍的增長率。把現在的拼多多當做金礦,期望一個季度公司膨大一倍,這樣的想法無論如何都稱不上理性。   大基數、高增速、持續性是一個“不可能三角”,經歷了一年多的高速增長后,對拼多多來說,受疫情困擾的一季度本來應該是個“軟著陸”的好機會,但一季度 GMV 因為退貨高導致增長依然居高不下,這迎合了市場預期,但顯然透支了拼多多股價的增長空間。   以拼多多目前的體量來看,降速是意料中事,也只有降速才符合邏輯,問題只是何時降臨。   財報發布前一個交易日收盤時,拼多多股價距離年初低點已經上漲了 2 倍,獲利盤巨大,風向有所改變,獲利盤跑得比誰都快。財報一發,搶跑開始。   當然,二季度財報也暴露了拼多多的問題,比如 ARPU 環比增長停滯。但從整體來看,拼多多仍然處在健康高速——而非超速——發展的軌道當中。財報顯示,拼多多月活躍用戶為 5.688 億,同比增長 55%,年活躍買家數為 6.832 億,同比增長 2 億人,比上季度增加 5510 萬人。而且拼多多賬上還有接近 500 億元,哪怕 GMV 增速這樣引起股價暴跌的“元兇”,其實也達到了 79%。如此亮眼的成績單居然導致公司市值蒸發 150 億,只能說市場對拼多多的期望實在是太高了。   接下來幾個季度,關于拼多多,比起 GMV 和營收數字,有更需要關注的問題。   第一、 平臺大額補貼高客單價低頻商品換來的新用戶是否有持續性的消費行為?   第二、 品類擴張以及相應的商品擴張如何進行、是否順利?    A   拼多多財報發布后出現的股價大跌,顯然是由于財報數據與市場預期發生偏差。    1、GMV 增速放緩   19 年 Q2 是拼多多創造增長驚喜的開始。拼多多上市后的 2018Q2-2019Q1,GMV、年活躍賣家、ARPU/年都出現了持續的增速放緩,但 19 年 Q2 百億補貼等 618 戰略扭轉了趨勢。   一二線城市用戶數的增長與下沉市場紅利被逐漸釋放劣勢抵消,此后幾個季度,活躍買家數實現了 40% 左右的穩定增速;ARPU 則在 2019Q2 則出現增速反轉。   19Q2 是年活躍買家和 ARPU 的增長雙擊,19Q3-20Q1 百億補貼戰略的持續性維持了年活躍買家增速,但 ARPU 一側未有足夠驚喜。   可以這樣理解,19 年 Q2 帶領拼多多進入了一個新的速度賽道,其后三個季度是在高速車道上行駛,但未能帶領拼多多進入下一個級別的速度賽道,當 ARPU 出現大級別的增速回落,拼多多被暴露在退回到原本增速賽道的風險之中,市場就要調整預期、估值偏差。   拼多多另一個隱藏風險是,年活躍買家繼續向阿里靠近,而阿里被視為電商市場的第一層天花板。二季度,阿里國內零售市場年活躍用戶為 7.42 億,單季度增長 1600 萬;拼多多同期數據是 6.832 億,單季度增長 6010 萬,高用戶基數下能否繼續維持年活躍買家同比 40% 的增長是存疑的。   拼多多 ARPU 同比增速放緩、環比滯漲,可以從三個維度進行分析。   一是特殊原因。7 月中旬,拼多多曾回應過 GMV 注水質疑,今年 Q1,受疫情影響,因缺乏履約能力而取消訂單或未交貨的情況要高于正常水平,無論商品是實際出售、交付還是退貨都會被計入 GMV。   這種特殊原因使得拼多多一季度已經出現的 ARPU 增長放緩問題在一定程度上被掩蓋;二季度避風港消失,問題出現。   二是競爭形勢。二季度,拼多多的競爭者阿里、京東加大了對電子產品的補貼力度,意味著拼多多在這一戰場的投入產出比已經被極大稀釋,想嘗到甜頭所需付出的代價更高。 陳磊   拼多多新任 CEO 陳磊也提及了另一市場形勢的變化——經濟恢復,消費行為逐漸恢復活躍,但消費者在花錢方面,還是比較謹慎,“在我們的平臺上,他們購買了更多的日用品,快銷品和農產品?!毖韵轮?,用戶對高客單價商品需求下降。   拼多多選擇避開巨頭鋒芒,人無我有,人有我走?!案偁帉κ衷陔娮赢a品方面推廣力度特別大,公司看到日用品對留存用戶起到了很好的作用,且日用品購買頻率高于電子產品,所以我們選擇了不同投入策略?!逼炊喽嘭攧崭笨偛民R靖說。   高頻商品補貼給 ARPU 帶來的增長勢能是逐漸削弱的,這一策略選擇使得高客單價低頻商品為 ARPU 做出的貢獻率繼續降低。   三是平臺大額補貼高客單價低頻商品換來的新用戶持續性消費水平,這也是最關鍵的一點。   電商從業者微博 ID“風中以食品日化為主廠長”這樣描述快銷品——快銷品是高頻消費品類,特點是市場大、消耗快、流通性強,渠道滲透廣。這類日用品雖然客單價低,但消費頻次高,如果平臺對電子產品的補貼預算平移到日用品,ARPU 增速本不應有大波動的環比放緩數據出現。   之所以有這樣的結果,一是市場營銷費用減少,二季度拼多多銷售與營銷開支為 91.136 億元,同比增長 49%,增速與一季度持平,與此前幾個季度相比大大放緩,拼多多高管提及,這是管理層刻意為之。   二是補貼日用品就像是把水倒進漏洞的袋子,隨時存在流量外泄的可能。高客單價的電子商品購物是一次性的,購買行為完成,用戶短期內無相關需求,用戶單類目的消費需求在單一平臺被完全釋放;但日用品不同,用戶享受補貼、完成購買后,當再次出現該類目商品購買需求時,用戶可能會流向其他電商,平臺很難通過一次補貼實現消費者購買行為的全年綁定,特別是對拼多多這樣受“二選一”限制、品牌標簽所困,品牌商品 SKU 有限的平臺來說。   以往拼多多對提高日用品購買頻次的策略是間接的,以低頻打高頻,希望大額補貼高客單價換來的用戶自動向高頻購買日用品流動,現在拼多多策略變得直接,直接補貼日用品提高用戶購買頻次。   與拼多多以“準、猛”風格補貼高客單價電子商品給 ARPU 帶來立竿見影的效果不同,補貼日用品偏于細水長流,當補貼換擋到日用品,ARPU 恐怕就要承受增速陣痛。   阿里今年一季度的年活用戶是 7.26 億,GMV6.589 萬億元,得出的 ARPU/年是 9075 元。這也是失望情緒彌漫的原因,相對于阿里的 ARPU,拼多多距離還非常遠,ARPU 在山腰便放緩的信號并不能讓人安心。這一策略對 ARPU 貢獻幾何,就是接下來幾個季度要重點觀察的。    2、營收增速無驚喜   比起用戶數和 GMV,市場對拼多多營收情況的關注要小的多。除了一季度因疫情原因,商家減少廣告投放,拼多多的貨幣化率一直相對穩定,使得營收增速的問題終究還是 GMV 的問題。   二季度,拼多多全年貨幣化率有所提升,這得益于廣告業務的恢復。如馬靖所言,商家在一季度縮減廣告開支使得他們在二季度擁有更多的廣告預算,并急于挽回一季度損失,消費端的恢復、平臺廣告工具效率的提高同時提高了投資回報率,多重因素作用使得廣告業務快速恢復。   這一邏輯也可以從側面解釋,廣告業務更成熟的阿里,在二季度得以快速恢復。   不過正如拼多多管理層反復強調,營收轉化率不是公司關注的關鍵業績表現指標,留住用戶才是。短期內,拼多多的營收、盈利可能都無法帶來市場太大驚喜。    3、增速放緩出現在盈利前   拼多多 GMV79% 同比增長、營收 67% 的同比增長放在其他電商平臺身上都是值得股價大漲的成績,二季度,阿里和京東的營收分別同比增長 34% 和 33.8%,但同時,阿里、京東的凈利潤同比增幅分別為 40% 和 66.1%。   阿里發布財報后的兩個交易日股價波動不大,京東發布財報后的五個交易日股價上漲約 20%。   拼多多二季度虧損大幅收窄,非美國通用會計準則下,拼多多凈虧損為人民幣 7720 萬元,2019Q2-2020Q1 凈虧損分別為 4.113 億元、16.604 億元、8.15 億元、31.7 億元。然而,市場看待幾家電商的維度不同:衡量阿里和京東的標準是盈利,而衡量拼多多的維度卻是增長。    另外,值得觀察的是,拼多多虧損收窄是因為營收的大幅增長,還是因為某項成本的下降。   拼多多的運營開支主要有銷售與營銷開支、總務與行政開支、研發開支,總務與行政開支占比較小且增速穩定,研發開始增速較快但金額也不高,二季度,這三項開支分別為 91.136 億元、3.948 億元、16.624 億元。   拼多多二季度虧損收窄則是由于營銷開支增速持續低于營收增速,又無一季度疫情原因導致的營業成本占比的陡升。   這一問題又回到了投資者們最關心的問題,當補貼減少,拼多多是否還能維持以往增速。雖然拼多多連續兩個季度放緩了營銷支出,但年活躍買家增速并未放緩,關于營銷支出對 GMV 拉動貢獻勢能降低,上文已經分析過原因,這是需要拼多多接下來證明的。    4、企業價值觀面臨考驗   特斯拉事件中,拼多多替用戶支付購車款、派小二回應特斯拉專員、換城市給用戶提車,每一步都程序正義,但能讓外界明顯感覺到經營者操作策略相當靈活。    當拼多多財報與預期有所偏離 ,就很容易讓外界據此與此前外界質疑拼多多 GMV 造假、用戶增長根基不穩等負面清單產生聯系。   不過換個角度想,如果不是經營思路活泛,拼多多也不可能從阿里、京東的包圍圈中突圍,微信里也就長出了這么一個拼多多。    B   市場首先要做的是對拼多多調整預期,這已經是一頭大象,而非獵豹。   雪球用戶@愚鈍博士做了一個簡單計算?!凹僭O拼多多可以在三年內實現阿里大約一半的 GMV,也就是 3 萬億。這意味著從 Q2 起,拼多多的 GMV 連續三年復合增速不低于 33%,似乎不難實現。3 年之后,貨幣化率3%,對應 900 億年收入。假設 30% 的凈利潤率和 35 倍 PE,那么 3 年后的合理市值是 9450 億,而拼多多在周四收盤后(財報前)的市值已經高達 8134 億。這意味著,從這周四到三年后的合理估值,拼多多投資者的年復合收益只有5%。要注意這里的估算是建立在 30% 凈利潤率的假設上,而拼多多現在仍然是一家虧損的公司。至于兌現高額的凈利潤率,是否會影響 GMV 的快速成長,還是一個有待驗證的問題?!?   如前分析,拼多多 GMV 接下來高速增長關鍵在于 ARPU 增長,ARPU 增長的關鍵又在于非高客單價、高頻商品的購買率,決定拼多多老用戶提高購買頻次的原因又有其二,一是在拼多多購買高頻日用品心智的養成,二是品類、品牌及品牌商品 SKU 的補充。   部分拼多多用戶尤其是月卡、年卡用戶,對拼多多有忠誠度,但購買頻次依舊有限的原因是,拼多多未能供給這部分用戶在天貓存在的購買需求,比如服飾品類——2019 年天貓雙 11 銷售額前 10 名的品牌,目前幾乎都未在拼多多上開旗艦店。   關于提高用戶購買頻次的第一點,拼多多的策略已經非常明確,以百億補貼和萬人團培養用戶心智。但第二點尤為艱難,這也是拼多多提高品牌質感,低傭金和開放態度不斷向品牌示好的原因。   品牌類別根據拼多多在行業競爭優勢情況又可以分為兩種,一種是優勢類目,一種是劣勢類目。   在日用品、農產品類目,拼多多的 GMV 拓展要相對輕松,一是農產品本就是拼多多的基本盤,二是擁有模式上的優勢?!帮L中的廠長”在微博上提到,“商家再強大也拼不過平臺,一些高頻消費的大類目,比如日用品蔬菜生鮮,平臺也自己進場了,既做運動員又當裁判?!毕鄬Χ?,無自營業務的拼多多爭奪日用品商家上,就多了這一條優勢。   在服飾、化妝品等非優勢類目的拓展上,拼多多需付出的努力更多,對快銷品類目,拼多多可以通過新品牌計劃等方式扶持出新品牌,但在服飾、化妝品這樣品牌競爭優勢明顯的類目,新品牌計劃能發揮的作用有限。   服飾品類并非拼多多擅長領域,但依舊是貢獻 GMV 的主力軍。拼多多管理層一季度財報電話會議上曾提及,一季度各品類商品的銷售占比跟以往沒有很大區別,貢獻最大的依然是服裝和快銷品。   在行業認知中,天貓和淘寶在服飾類目擁有強勢話語權,劉強東曾在 2016 年 618 喊出“服裝五年成為京東第一大品類”的口號,但被阿里以凌厲的二選一戰略打趴,服飾類目至今未能雄起,拼多多在這些非優勢類目的拓展就是接下來幾個季度要重點關注的問題。
來源:博客園
發布時間:2020-08-25 09:13:00
圖丨合影留念 10月25日,由《數據猿》主辦的“2017金融科技數據驅動金融商業裂變價值峰會”在北京悠唐皇冠假日酒店舉行。本屆峰會從數據智能的角度,聚焦 “數據如何驅動金融商業裂變”,從消費金融、供應鏈金融以及金融前沿科技三大角度深入探索數據智能為金融領域帶來的變革。 「金猿獎」是由數據猿發起并創辦,憑借 大數據 垂直行業媒體的獨特視角和優勢,針對大數據垂直行業的文章、案例、產品、人物等設置的獎項。峰會前期,數據猿邀請了 金融大數據 領域內優秀企業及領軍人物、投資人、業界專家學者,共同以“大數據在金融領域的商業價值探索”為主題進行了約稿、案例、產品征集。 經過2個月的時間,數據猿專欄收到了大量的企業高層文章,經過內部篩選選出了20篇稿件,再交由業內專家組成的評審團進行科學系統地評定,最終選出了10篇金融科技優秀文章。大佬們的真知灼見將為金融科技行業的健康、有序發展添磚加瓦。會上,“金猿獎2017金融科技優秀征文獎”獲獎名單正式公布(排名不分先后): 天創信用CRO張宇《借鑒美國數據驅動理念,實現中國消費金融彎道超車》 在互聯網信息發達的時代,智能手機的普及、大數據的產生與機器學習的應用,僅僅是提供了更多的數據渠道,加快了模型迭代的速度與產生多維的用戶畫像,但金融的本質即“不同主體之間通過價格發現來實現跨時空的價值交換”并沒有改變。天創信用CRO張宇在文章中指出,要透過現象看本質,開展業務時秉承著消費金融每個環節的根本,從風險、成本、收益等基礎角度去思考。切實體會到基于數據驅動的消費金融業務管理必須遵守以下“五大原則”:風險收益平衡原則、未雨綢繆的業務規劃原則、通過概率進行管理原則、通過指標體系管理原則和權責清晰的風險管理原則。 百分點集團技術副總裁兼首席架構師劉譯璟《未來銀行,將會顛覆一切》 到了DT時代,整個思路在轉變。金融行業從業者面對的不再是單一的業務,而是整個現實世界,如何來做?劉譯璟說:“要通過一些數據化的手段把這些現實世界轉換到數據世界里面去。這時候,需要建立現實世界的數學模型,在這個數學模型之上再去建立一個新的業務系統,這個業務系統透過數據世界就能了解現實的情況,從而自主地做出決策?!? 聚信立數據科學家甘建鈴《孫子兵法之廟算篇》 孫子兵法特別強調要“未戰而廟算”,即在“未戰”前舉行會議,分析客觀和主觀的條件,制定計劃;企業目標是否正確,是否符合市場和自身實際;對項目精打細算,選擇有利的環境、適度的規模; 數據分析 相關人員是否專業,是否嚴謹,是否有足夠的執行力;業務流程是否打通,各部門職責是否明確;管理者在調動資源上是否有足夠的推動力;如果項目不順利,是否有相應的應對策略或備用的方案…… 甘建鈴認為,凡此種種,是企業想要依靠數據分析來降低成本、提高效率、開發新產品、開拓新市場等等所不得不考慮的?!拔磻稹倍鴱R算勝,成功指日可待,“未戰”而廟算不勝,失敗則成定局。 諸葛io 產品vp 于曉松《「場景化」增長的踐行者 ——探尋大數據時代的商業變革》 隨著大數據技術和認識的不斷發展,越來越多的人也開始意識到,數據作為一種生產資料,如果不積極探索它、利用它、分析它,那么數據就如同沉睡的“金礦”,真正的價值無法體現出來。在文章中,于曉松指出,對于一個企業來說,對內需要通過大數據優化企業信息化系統,優化成本結構;對外需要通過大數據減少客戶流失,增加高價值客戶。因此,以用戶為中心,深挖行為數據、設定核心指標、梳理業務流程,最終用數據發現問題、驅動決策,這才是大數據應該產生的真正價值。 易日升總裁史建偉《大數據風控模型在消費金融場景下的六大應用》 對于大數據在貸后監控怎么去運用?史建偉認為重點是看幾個方面,第一基于非標場景,實時跟進合作伙伴的經營狀況是否會有異常波動。同時還要對個體進行跟蹤,例如他原先的幾個月可能有一個相對比較固定的行為,突然之間行為中斷了一段時間,系統就會把它篩出來重點關注。 史建偉在文章中特別強調:“最后在整個催收環節,最壞的催收情況就是失聯。所以大數據在催收這個領域的運用就是修復失聯的狀況。通過我們原先收集的眾多的數據,通過我們在市場中能接觸到的眾多的數據,通過他周圍的關系圈、社交圈,一步步修復失聯對象的信息,最終找到他?!? 達觀數據創始人兼CEO陳運文《算法技術剖析海量數據,數據價值驅動企業收益》 金融行業是一個極其注重用戶數據隱私的行業,用戶數據的流失也意味這用戶信任的流失,所以金融企業除卻自我技術研發外,在選擇利用第三方技術時,如何兼顧數據的可用性和私密性也是重中之重,所以選擇技術優良且值得信任第三方這一事項不容忽視。 陳運文指出,在數據不斷增加和算法技術日益優良的并行時代,借助技術去挖掘數據蘊藏的價值,利用數據蘊藏的價值去驅動企業的運營和發展,這是技術、數據、企業收益三者之間的良性循環,各個行業均如此,金融行業亦不能免俗。 東方金信CEO 王偉哲《金融大數據將推進全社會的誠信建設》 王偉哲認為,國內的金融行業、運營商行業,是較早使用大數據技術的行業。金融大數據的優勢在于幫助客戶降低運營成本,提升科學決策效率。一個金融大數據項目往往涉及的內容很多,包含平臺產品、大數據技術、數據建模和業務理解等,功能全面、性能穩定,是金融大數據平臺的基礎性要求。 安華金和 CTO、技術副總裁楊海峰《金融行業數據實時共享場景下的動態脫敏技術》 目前,脫敏技術中的靜態脫敏技術常見于銀行等金融領域。靜態脫敏技術的應用,其價值在于打造一份全新的、“高度仿真”的數據庫,供非安全環境下使用。憑借著低門檻、易部署等特性,靜態脫敏技術率先被用戶所接受。楊海峰表示,在近兩年,這種數據處理方式先后被銀行、證券、保險、社保等行業所采納,已經成為數據共享中的重要工具。 亞信數據CTO於今 &亞信數據硅谷 人工智能 研發中心主任常劍 《機器學習引領智慧金融,變革萬億規模實時支付風控模式》 於今 、常劍表示,實時金融欺詐檢測系統主要提供了4個方面的能力:首先,引入數據驅動的風控模型,以機器學習為基礎,科學設定反欺詐規則,實現從數據到業務語言以及機器代碼的轉化。其次,實現了包括電子、手機、網銀等多渠道的全面數據接入,提供完善的欺詐案件記錄和處置的功能,填補事中風險管控工作的空白。第三,系統提供了優化的交易風險處置,通過量化風險,觸發不同級別的防控策略,優化系統效果和用戶體驗。最后,可以提供全面的報表和分析功能,實時監控全局的風險情況,以便掌握信息。 能金云總裁許瀚丹《能金云:利用大數據 構建金融風險防控體系》 文中,許瀚丹介紹到,能金云綠色資產風控平臺的數據支持來自獨立打造的DPEN數據平臺,DPEN取自于Data Platform of Eco Network,是數據、信息和互聯網三者的集合。DPEN具有強大數據處理能力,支持數千萬個采集節點,源源不斷的數據匯聚到DPEN后,被數據庫接收,形成模型供后續比較研究。數據不僅反映機器的運行狀況,也計算出機器運行的最優方案。正是基于Dpen的分析、預測、預防、校正能力,企業資產運營會更加智慧。DPEN的強大之處就在于它的可預防性,通過實時數據監控及時調整防患未然,這也是利用大數據力量防范金融風險價值所在、優勢所在、智慧所在。 本文由 數據猿 投稿至 數據分析網 并經編輯發表,內容觀點不代表本站立場,如轉載請聯系原作者,本文鏈接:https://www.afenxi.com/48677.html 。
來源:數據分析網
發布時間:2017-10-27 04:05:00
  文/港股頻道   來源:節點財經(ID:jiedian2018)   近日,騰訊控股和旗下的閱文集團相繼發布了 2020 年中期報告,業績可謂“冰火兩重天”。   騰訊控股以總收入 2229.48 億元,同比增速 28%,凈利潤 572.32 億元,同比增速 29%,再度引發市場熱議,也繼續印證著強者恒強的定律。另一邊,閱文集團則沒有這么幸運,受累于新麗傳媒商譽和商標權減值,以上半年巨虧 33.1 億元,凈利潤同比下降 941.9%,同樣讓市場吃了一驚。   透過財報 ,我們來看看問題究竟出在了哪里?    / 01 /    巨虧 33 億元    閱文交出上市以來最差”成績單”   2020 年1-6 月,閱文集團實現營業收入為 32.6 億元,較上年同期增長 9.7%;毛利潤 17.3 億元,較上年同期增長 6.8%。 數據來源:閱文集團歷年財報   按照業務板塊劃分,在線業務、版權運營及其他仍為主要收入來源。   其中,由于分銷渠道擴張疊加疫情下用戶對閱讀內容的付費意愿增加,在線業務收入同比大幅增長 50.1% 至 24.95 億元,占比提升至 76.5%;而此前不斷上行的版權運營業務則受制于上半年影視行業前所未及的困境,收入同比大幅下降 41.5% 至 7.6 億,占比從 44% 跌至 23.5%。   同時期,閱文集團的自有平臺獲得了一定增長。其自有平臺產品及自營渠道的平均月活躍用戶同比增加 7.5% 至 2.33 億人,其中,自有平臺產品的月活躍用戶同比增加 16.1% 至 1.34 億人,但由于若干騰訊產品的付費閱讀內容用戶減少,并被免費閱讀內容帶來的用戶增加所部分抵銷,騰訊產品自營渠道的月活躍用戶同比減少 2.3% 至 99.2 百萬人。   另外,受益于上半年集團加強了內容的深度運營、優化了推薦的體系以及擴張了內容分發的渠道,每名付費用戶平均每月收入由 22.5 元同比增加 51.6% 至 34.1 元,付費比率和 2019 年持平,維持在 4.5%。   值得注意的是,閱文集團的月活用戶自 2018 年起便維持在 2 億人左右,2019 年為 2.197 億人,從數據增長趨勢來看,反映出其用戶增長進入了瓶頸期,或可預料未來營收規模有停滯的可能。 數據來源:閱文集團歷年財報   同時,用戶付費比例亦呈下滑狀,由 2018 年的 5.1% 降至 4.5%,以價值鏈條而言,最終端的變現沒能與用戶增加成正比。   整體來看,盡管上半年宏觀經濟形勢嚴峻,閱文集團在營收上依然保持了一貫穩定,但在利潤方面,閱文集團卻交出了上市三年以來最差“成績單”,凈虧損 33 億元,也是上市以來首度虧損。 數據來源:閱文集團歷年財報   據財報披露的信息,虧損主要系收購標的新麗傳媒業績不達標,致使商譽及商標減值達到 44 億元。細看的話,如果不算收購新麗傳媒的公允價值收益 12 億元,“其它虧損”項及集團凈虧的數據會更低。   此外,還有一項 1.98 億元的金融資產減值虧損,屬于“應收賬款的壞賬撥備”,財報中給到的描述是“主要與電視與電影項目有關”,這也從側面反映出影視行業的蕭條對閱文業績的影響之深。   對于這樣一份業績報告,騰訊集團副總裁、閱文首席執行官程武難掩失望,在財報會議中表示,“2020 年上半年對閱文而言充滿了挑戰,令人失望的業績表現也讓我們意識到公司底層商業模式抗風險能力的缺失和沉積數年的結構性問題。我們將積極面對這些問題,并已在影響核心業務的一些緊急事態上做出了快速回應?!?   資本市場,于財報發布次日的 8 月 12 日,閱文集團股價收跌 9.49%。    / 02 /    寄予厚望的新麗傳媒    為何難以實現協同?   收購新麗傳媒,閱文集團的本意是借“新麗傳媒在電影、電視劇和網絡劇方面取得的斐然成績”,全面掌控 IP 改編過程,在網文 IP 影視化方面有所突破。   事實上,在雙方過往的嘗試中,曾打造出過《芝麻胡同》、《精英律師》、《慶余年》等多部爆款劇集,尤其是 2019 年的大火的《慶余年》,在第 26 屆上海電視節白玉蘭獎上一舉斬獲最佳編?。ǜ木帲┖妥罴涯信浣枪矁身棿螵?,被閱文集團視為頭部 IP 改編影視劇的優秀范例。   然而,在業績上新麗傳媒卻難以兌現承諾。據雙方當時簽訂的對賭協議,新麗傳媒需要在 2018、2019、2020 年完成凈利潤不低于 5 億元、7 億元和 9 億元。   但之后,影視行業各種“黑天鵝”出沒,新麗傳媒步步艱難,2018 年錄得凈利潤 3.24 億元,2019 年為 5.49 億元,僅為對賭承諾目標的 64.8% 和 78.43%。   總之,無論是業績還是網文 IP 影視化的愿景,雙方距離真正的協同似乎都有一段距離。   至于原因,閱文集團方面坦言:“由于缺乏一個既熟悉網絡文學業務、也熟悉影視制作的團隊來系統協調統籌,閱文與新麗傳媒的整合遠未取得全面成功,且進度不及預期”。   這點從 4 月底閱文集團的新舊管理層更迭,聯席首席執行官吳文輝辭任管理職務,騰訊集團副總裁、騰訊影業 CEO 程武出任閱文集團 CEO 和執行董事,騰訊平臺與內容事業群副總裁侯曉楠出任閱文集團總裁和執行董事或可見端倪。   另一方面,閱文起家于網絡文學,本身不善于 IP 開發及改編,而買來的新麗傳媒雖然精于制作卻難免“南橘北枳”。   在補稅風波、片酬限制等事件后,影視行業進入深度調整期,網絡影視市場激烈逐鹿,以及今年疫情沖擊,掌握著話語權的閱文都很難拿出一種機制和自上而下的規劃來推動構建以 IP 為中心的內容和運營策略,自然也無法促進新麗傳媒乃至橫跨各個內容形態的開發制作以最大化 IP 的生命周期價值,更談不上深度整合。   總體而言,當年備受期待的“閱文+新麗”雙向互補,1+1>2 的“溢出效應”,至今還存留在市場的“意念”中。    / 03 /    閱文難“悅”    如何走出困局?   付費 or 免費之爭,近年來一直在網文界暗流涌動,雖然付費占據主流,但自 2019 年起,“免費閱讀”模式異軍突起。   據《中國移動互聯網 2019 半年大報告》顯示,2019 上半年,月活超過 300 萬人次的免費閱讀平臺同比增長 160%,數量規模占比達到了 61.9%。實力強勁者如愛奇藝閱讀、連尚免費讀書、米讀小說、番茄小說等以摧枯拉朽之勢,引發了整個行業的震蕩和關注,也撼動了看似已經穩固的付費閱讀模式。   在此背景下,閱文集團推出免費閱讀 App“飛讀”,作為付費閱讀產品的補充,更像一款防御性產品。不過,因內容多為老舊書,熱度低的小眾書,“飛讀”市場反饋一般,其整體表現與閱文集團的網絡文學龍頭地位并不匹配。   隨著免費閱讀平臺的崛起,付費閱讀平臺將面臨市場份額被瓜分,流量被搶食的風險,同時又要和短視頻、游戲爭奪用戶時間,如何保證核心在線閱讀業務將是閱文面臨的首要挑戰。   內容端,上半年在網絡上鬧得沸沸揚揚的“五五斷更節”事件,充分暴露出閱文集團在過去和作者之間利益分配不清晰等歷史問題。   網文行業發展到今天,“蛋糕”越來越大,入局者也越來越多,但根基仍是創作者。截至 2020 年 6 月 30 日,閱文平臺擁有 890 萬作者,1340 萬部作品。根據百度搜索風云榜,排名前 30 部的網文中,25 部來自于閱文平臺。 數據來源:閱文集團歷年財報   如何構建雙方合理的發展模式、生態規則及權益規范,保障創作者的對等權益,激發創作者的熱情,是閱文集團能否在行業內繼續引領的前提。   另一方面,作為中國最大的網絡文學平臺,如今的閱文早已不是一個單純的網文閱讀或分發平臺,憑借著平臺大量創作者和品牌 IP,通過對影視、動畫、游戲等的深度開發,加大在內容上下游聯動上的協作力度,閱文意欲形成一個更加高效的 IP 生態系統,包括小說、漫畫、動畫、游戲、影視劇、周邊等各方場景。   目前來看,除了小說、影視劇,閱文在其他生態系統上建設上明顯不足。   針對 IP 生態建設,此次管理層在電話會議上透出,將從三個方面入手,強化以 IP 為中心的生態系統。   增強 IP 孵化能力、加快跨業態開發來推動 IP 更快成長;與合作伙伴建立廣泛的業務合作伙伴關系和網絡,將高質量 IP 轉化成包括漫畫、動畫、電視劇、電影和游戲等在內的各種娛樂形式,推動 IP 價值最大化;進一步實現閱文與騰訊動漫、影視、游戲等業務的融合,推動 IP 開發走向產業化。   無論如何,當下的閱文的確面臨著上市以來最大的困境。好在,上半年已經過去,閱文也已認識到問題所在,接下來如何革除肌瘤,釋放核心價值并扭轉局勢,下半年的表現尤為關鍵。
來源:博客園
發布時間:2020-08-25 09:00:00
工業大數據 應用平臺“ 積夢智能 ”正式宣布完成2000萬人民幣天使輪融資,本輪融資由真格基金投資。 積夢智能創始人謝孟軍表示,資金將主要用于團隊建設、市場推廣、技術交流、深度合作等方面。本輪融資對于積夢智能的發展意義重大——這意味著積夢智能得到了資本市場的認可,在獲得了這筆數額巨大的天使輪融資后,積夢智能的未來有著無限可能。同時,通過融資,積夢智能可以擴大研發團隊和市場團隊的規模,讓產品快速迭代和推廣,在市場中占據有利地位。 “積夢智能”創始人謝孟軍 真格基金董事總經理兼華東區負責人顧旻曼表示:“我覺得積夢做的方向正是智能制造這個大方向里的核心環節,如何使用先進的軟硬件和流程管理,幫助企業更好的提高制造水平,從而能夠達標承接更多高精尖的訂單,同時實現更好的成本控制?!? “積夢智能”是一家工業智能科技公司,致力于生產過程中的 大數據管理 和應用。通過監控制造生產中的設備狀態、環境因素、人員情況、產品質量、工藝過程等,深度挖掘和系統分析這些數據,從而優化作業流程、提高設備能效、增加人均產能、提升產品質量。 其核心業務是 大數據 應用平臺,通過集合工業互聯網、云計算、大數據在生產制造全流程的應用,實現制造過程中的數字化控制、狀態信息實時監測和自適應控制。 積夢智能自主研發的軟硬件系統能夠監測出人、設備、物料和產品間的最佳配比,通過數字工廠、大數據模型來展示,讓管理者進行方向決策,讓技術人員解決生產問題,讓作業人員提升工作效率。 積夢智能的目標客戶是整個制造業,現有客群包括汽車行業、電子元件、機械加工及標準件行業等,目前已成功應用于多家龍頭企業。 例如某知名汽車企業,積夢智能平臺已經應用于各個部門。積夢智能幫助該企業在其研發中心和各制造工廠中建立了包含激光測量、三坐標測量、白光測量和各類量檢具等設備在內的完整質量監控和分析體系。 謝孟軍指出:“目前工業大數據應用才剛起步,國內工廠的信息化工作存在缺陷,數據利用率很低,對于大數據的應用程度參差不齊。許多企業都停留在數據采集和管理階段,而最關鍵的分析挖掘和展現方面卻鮮有人涉足。積夢智能以“質量”為突破口,利用創始團隊豐富的數字工廠模型積累,將非結構化的東西結構化,以此服務客戶?!? 積夢智能的團隊也是陣容強大,8位核心成員均來自知名互聯網企業和工業制造企業,如蘋果、盛大、上汽、餓了么、七牛等,擁有非常豐富的智能生產線建設經驗以及工業大 數據分析 經驗。 謝孟軍希望與團隊一起將積夢智能打造為業內的領軍者,以數據驅動生產。在未來幾年內,積夢智能計劃將主要龍頭企業的制造數據全面接入工業大數據分析平臺,并以該平臺為基礎,開發各種工業應用,實現數據驅動的生產模式,為企業提供數據和應用托管業務。 項目:積夢智能 公司:上海積夢智能科技有限公司 網址:jimeng.io 本文由 積夢智能 投稿至 數據分析網 并經編輯發表,內容觀點不代表本站立場,如轉載請聯系原作者,本文鏈接:https://www.afenxi.com/48539.html 。
來源:數據分析網
發布時間:2017-10-23 10:05:00
  一年前, 當雙屏手機 Surface Duo 首次亮相時 ,微軟的首期產品官 Panos Panay 就表示,這款設備基本已經定型,在 2020 年年底上市前都不會有太大變化。   我當時以為,Panay 所說的是「定型」指的是這款手機的外觀,但未曾料到的是,在大半年后的今天,微軟會原封不動地把它推向市場,并搭上了一個堪比蘋果三星旗艦機的定價。   ▲ 微軟的雙屏手機 Surface Duo 將會在 9 月 10 號上市   最終,人們很可能會花一千美元的價格,買到一款足足落后主流手機配置近一年的產品。   它沒法用上 5G 網絡,因為 Surface Duo 搭載的還是去年的驍龍 855 芯片,還有像多攝、窄邊框、高刷新率屏和高功率快充等,你也無法在這臺手機上看到。   ▲ 圖片來自: TechRadar   甚至連雙屏本身也不算新鮮了,更早嘗試過該設計的 LG、中興等廠商, 均已有過沉沙折戟的經歷 ,如今大家更愿意談論的,是一整塊不會被鉸鏈分割,可以彎曲、對折的屏幕。   很多人對 Surface Duo 前景的不看好,主要也在于對配置的不滿,以及對反常形態的質疑,更多人好奇的是,為什么微軟要堅持開發這樣一款產品,并有自信把它賣出去?    把手機變成生產力工具 「Surface Duo 是為那些熱愛微軟應用生態的 Surface 粉絲們服務的?!?    這句話出自 Panos Panay 之口 ,作為 Surface Duo 的負責人,他對這款產品的定位和理解,應該是最有說服力的。   我們先搞清楚一個問題,什么是「微軟應用生態」?   你可能會馬上想到 Office、Windows 這類軟件和系統服務,它們確實是微軟最知名,也最具代表性的產品。如果你每天都要用 Excel 處理表格,拿 Word 編輯文檔,或是在 PowerPoint 上制作演講材料,那么已經或多或少地與微軟生態產生一定的聯系了。   ▲ 微軟應用生態包含什么?Surface Duo 宣傳視頻里已經有所展示了   這還不止,如果你還會用 OneDrive 云盤存儲文件,用 OneNote 記筆記,用 Outlook 收發郵件,甚至是一名 Xbox 玩家的話,那么微軟生態對你的價值又會高上許多。   借助微軟應用生態的粘性,來讓用戶認可 Surface Duo,是微軟為這款手機找到的第一個核心賣點。   但我們依舊有理由懷疑它的存在價值。   ▲ Office 套件是微軟的招牌應用,但它也兼容很多平臺。圖片來自:Microsoft   畢竟,微軟生態是開放的,它不像 iOS、macOS 和硬件綁定,自然就不存在「你只有買我的設備,才能用上我的服務」這類門檻。   哪怕是你不購買 Surface Duo,只有手頭上有任意一臺 Android、iPhone 手機,依舊可以使用到微軟的全套服務。   突破口其實還是在硬件上。既然微軟無法改變它的軟件開放策略,但在設備層面,微軟卻可以摒棄掉單屏手機在生產力應用上的先天不足,設計一個更有利于用戶辦公、商務的工具。   ▲ 在 Surface Duo 上使用 Outlook 處理郵件,充分利用了雙屏的特性。圖片來自:Microsoft   這也是 Surface Duo 的第二個核心,即利用雙屏,來承載起自己的應用生態。微軟希望利用這個設計,補足一個大部分手機、平板都沒能做好,且大部分筆記本無法兼顧的空白領域:   移動生產力。   老實說,作為一家本身就是開發各種生產力軟件的公司,這的確很像是微軟會做的產品。   ▲ 跨應用的信息拖拽操作,一直是多任務處理的關鍵流程。圖片來自:Microsoft   因為它非常的「Surface」化,以至于連微軟列舉的很多使用場景,都是和辦公、商務等相關的,比如說利用兩塊屏幕來處理郵件、編寫文檔,還有在視頻會議的同時調整 PPT 等,都是為了突出雙屏形態之于生產力,之于多任務處理的優勢。   你甚至很難看到和生產力無關的片段,哪怕 Surface Duo 運行的是 Android 系統,可以玩手機游戲,看視頻,但這套配置決定了,它在這方面的表現并不會比其它 Android 旗艦機要出色。   唯獨只有生產力,依靠雙屏這個獨特的形態,微軟非常自信能在 Surface Duo 上提供一個遠超其它移動設備的體驗,進而和那些強調消費娛樂的智能手機區分開來。   或許從最開始,微軟就對開發一款普通 Android 手機不感興趣。   它只是想做一臺更小巧的 Surface,一臺只面向生產力用戶的設備。    Surface 思維下的手機   Surface Duo 的面世和 Surface 有不少關系。按照 Panos Panay 的說法,早在微軟推出 Surface Pro 4 和 Surface Book 時,他就已經設想了一款可以折疊,并能塞進口袋里的 Surface 設備。   剩下的就是如何實現的問題。   為了更好的迎合「生產力工具」的定位,微軟選擇了兩塊 5.6 英寸,但長寬比卻是 4:3 的屏幕,而非現在主流全面屏手機的長條形設計。   ▲ 在視頻會議的同時展示 PPT。圖片來自:Microsoft   這在影音娛樂上可能體現不出優勢,但從多任務處理的角度看,如果要更好地使用 Office 軟件來編輯圖表和文檔,用觸控筆記筆記,一塊寬大的屏幕顯然會更合適的選擇,這也是 Surface Duo 專注于移動辦公的明顯特征。 ▲ Panos Panay 攤平、翻轉、再合攏屏幕的這個過程,已經能說明 Surface Duo 與折疊屏手機的某些差異了   出于對輕薄和重量的考慮,微軟還放棄了更新潮、更吸眼球的折疊屏,轉而使用兩塊獨立的屏幕,并由鉸鏈所連接。   雖然在視覺上,這種分離式雙屏并不如折疊屏那么驚艷和一體,但它在輕薄、翻折上的優勢,也是現階段折疊屏手機所無法比擬的。   在打開狀態下,Surface Duo 僅為 4.8mm 厚,這其實比 iPad Pro 還要更薄一些;就算是兩塊屏幕合攏,厚度也沒有超過 10mm,而且上下部分還能緊密地貼合在一起,而不用擔心屏幕彎折的問題。   ▲ Surface Duo 使用的「雙軸鉸鏈」支持 360 度的旋轉   另一個值得說的是它的鉸鏈。借助來自 Surface 的經驗,這次 Surface Duo 使用的「雙軸鉸鏈」結構,其實與二合一超極本十分相似。   它內部的互鎖齒輪不僅支持 360 度的翻轉,還可以讓屏幕在任意一個角度固定住,且不會松動。   所以,如果你把機子完全對折,只留下一塊屏幕,它的使用其實和其它手機一樣,不管是點開新鏈接,還是應用內的界面跳轉,都是在單屏下進行的。   ▲ 在一款應用里點擊鏈接后,會自動啟用另一塊屏幕來打開瀏覽器   但在雙屏并排的狀態下,Surface Duo 則可以同時打開兩款不同的應用,或是讓一個應用橫跨兩塊屏幕,但會對界面布局進行重構。   ▲ 橫置設備后,屏幕下方可以當做鍵盤區   換成是需要大量錄入文字的場景,你還可以將設備橫置,變成類似于筆記本電腦的形態,此時下方的屏幕就會變成一整塊虛擬鍵盤了。   ▲ Surface Duo 的不同使用模式。圖片來自: Microsoft   兩塊屏幕,配合一根任意翻轉的鉸鏈,一款應用在 Surface Duo 上其實可以有 6-7 種不同的呈現方式。至于怎么體驗才是最好的?則完全取決于用戶的選擇。    在手機和電腦之間,還會有 Surface Duo 的位置嗎?   微軟對 Surface Duo 是抱有期待的,但很奇怪的是,這種期待并非是讓它賣出去多少臺,或是占據了多少的市場份額,而在于讓它作為一個「范式設備」,為傳統筆記本廠商,甚至是競爭對手們提供了一種新的設計思路。 ▲ Surface 的影響力不是靠出貨量和市占率帶來的,它的價值,是為其它廠商帶來一種新的 PC 設計思路   這就像當年 Surface 一樣,它的鉸鏈結構,它的鍵盤蓋板設計,以及專注于生產力的定位,都對后續的很多產品帶來了長遠影響,但你卻很難用數據去量化。   某種程度上,微軟也希望在移動領域復制這樣的成功,來驗證雙屏手機這個形態,在移動辦公領域的可行性,讓其它設備廠商也能為之效仿。   然而,在這個早已經被各種屏幕包圍的時代,Surface Duo 會在我們的日常生活中扮演一個怎樣的角色,微軟似乎還沒有想好。    微軟 CEO 納德拉在接受采訪就說 ,Surface Duo 可以替代他的手機,但還不能替代 Surface 筆記本。他還覺得有人會同時帶著手機和 Surface Duo 出門,那又是另外一種使用模式。 「時間會證明一切,我想第一批使用這款設備的用戶,會比微軟自己都更能告訴大家,它的真正定位,以及它所定義的產品類別?!?   可以預見的是,第一代 Surface Duo 面向的市場注定不會很大。我能想到的也就是一些重度 Office 用戶,或是 Surface 品牌的愛好者們,才會對這樣的產品感興趣。   而大部分人,則仍會以傳統雙屏手機的觀點,或是小眾玩物的心態,來理解和看待它。   想要扭轉這個印象十分困難,一如蘋果想要讓 iPad 替代我們的下一臺電腦一樣。   題圖來源: The Verge
來源:博客園
發布時間:2020-08-25 08:50:00
作者:劉燕 2014 年 11 月份,當警官 Lee DeBrabander 在長灘( Long Beach)緝毒隊的 數據分析系統 Palantir 上標記一件機密案件時,他以為關鍵細節會被隱藏,并對未授權用戶不可見。保密性是警察工作的重中之重——甚至事關生死。它通常涉及對證人、臥底警察的保護以及對下一步行動的保密。但不久之后,一位反團伙犯罪部門的警員,在調用與該案件相關的汽車牌照時,卻同樣能夠讀取所有與此相關的文件。 「你可以看下這個嗎?」DeBrabander 在發給 Palantir 工程師的郵件中這樣寫道, 后來為了回應要求公開公眾記錄的要求,這封郵件由 Backchannel 媒體獲得。 Palantir 是由支付服務 PayPal 聯合創始人、技術投資人和川普支持者彼得·泰爾( Peter Thiel )投資。 Palantir 得以向全國的警察部門出售數據存儲、分析和協作軟件,是建立在其堅實的安全性之上。其官網顯示,「 Palantir 的執法業務提供了強大的內置隱私保護和民權保護措施,包括細粒度的訪問控制與先進的數據保留能力?!? 然而, DeBrabander 的申訴過程并不容易。兩周后,該敏感案件仍然可以被長灘警察局的其他偵探公開閱覽?!肝胰チ颂朔磮F伙犯罪部門,并讓他們再調用一次那個牌照,因為這些文件并沒有被列入我們的保密組中,果然,那個牌照出現在了我們想要嚴密控制的那份報告里面,」他在一封給 Palantir 的電子郵件中抱怨道。四個月后,他的案件依舊對其他警員可見,而他還在給 Palantir 發送郵件尋求對方解決。 執法業務只是 Palantir 的一小部分業務, 它的主要客戶包括軍方客戶、CIA 等情報機構、國土安全局和大型金融機構。在警察部門,Palantir 的工具現在被用來標記交通違規、假釋違規及其它日常違規行為。但警察部門一些最敏感的工作也依賴于 Palantir 的保護。Palantir 的軟件能夠攝取和篩選橫跨多個司法管轄區的百萬條數字記錄,識別鏈接和共享數據,以此來創建或偵破案件。 Palantir 所處理的數據的利用范圍、類型、數量、留存度,以及前所未有的用戶訪問量,都引起了人們對隱私、公平、種族正義和公民權利的深切關注。但是直到現在,我們還不太清楚該系統是如何工作的、使用者是誰以及他們的問題是什么。并且, Palantir 自己以及它的許多警察部門客戶也都不愿意談論這些問題。 迄今為止最大的 Palantir 系統調查報告之一顯示,Backchannel 公開了幾十份來自美國各地警署的公開記錄請求。當該公司開始向執法部門銷售自己的產品時,就已經留下了文本痕跡。美國 50 個州都有公共記錄法,允許公民訪問地方和政府機構的合同、文件和電子郵件。通過這種方式就可以明白該公司在警察相關業務中的運作,但涉及國家安全的業務卻無法知曉。 顯而易見的是,利用 Palantir 的執法機構遇到了一系列問題,數據的暴露只是一個開始。在那些請求文件中,警察部門還指責 Palantir 公司抬高價格、軟件難用、服務條款不透明以及「未完成產品交付」(那位長灘警官的電郵原話)。Palantir 可能會精簡一些刑事調查的流程,但也可能會導致較高的成本,從而被轉嫁到警察部隊自身以及他們所服務的機構身上。 這些文件顯示了 Palantir 如何將硅谷模式應用于國內執法領域:以硬件折扣和聯邦補貼來吸引新客戶,并讓他們分享數據從而獲得其他用戶的數據訪問權限。當有足夠多的司法管轄區客戶都加入到由警察部門、政府機構和數據庫所組成的 Palantir 互聯網絡中時,最終形成的數據寶庫就類似于一張付費訪問社交網絡——一個犯罪網絡版的 Facebook,然后在公民幾乎毫無知情的情況下,追蹤公民的個人信息。 這就是 Palantir 暗中吞噬市場的來龍去脈,盡管 Backchannel 的調查報告揭露出很多問題,但它成功拿下了美國人口最多的州,接管了該州執法情報機構的訂單,并將這一模式復制到其它州以及世界各地。 除了 Palantir 的內部人員,沒有人確切知道美國有多少警察部門在使用它們的軟件。紐約警方肯定是其客戶,其它還有芝加哥庫克縣治安官員、弗吉尼亞州警察、在華盛頓特區大都會警局,以及猶他州的十幾個執法機構。盡管外界請求很多,但 Palantir 拒絕任何內部人員接受采訪,或對 Backchannel 的發現發表評論。 我們在長達數月的調查中獲得了大量的公共合同和數據,可以描繪出一幅大致的公司發展圖景。然而這些資料表明,僅加州就占據了大多數的部署業務——可能接近于目前 Palantir 的國內執法系統銷售收入的 90%。 Palantir 的軟件已經部署在洛杉磯警局(LAPD)、長灘警局(LBPD)以及加州伯班克縣警局;薩克拉門托治安部、文圖拉治安部和洛杉磯縣治安部(LASD);國家公路巡邏隊;由橙縣、三藩市、硅谷、圣地亞哥和洛杉磯當地部門所運行的國土安全「融合中心(fusion centers)」。采購訂單和發票信息顯示,這些機構自 2009 年以來已經向 Palantir 支付了超過 5000 萬美元。 洛杉磯是加州第一個部署 Palantir 的城市。2009 年,時任洛杉磯警局局長的 Bill Bratton 想要測試實時分析和 數據可視化 ?!肝覀冋趯ふ乙豢罟ぞ邅砀玫貙崿F警局即將推出的無線電通話系統的可視化,」時任隊長現任洛杉磯警局局長的 Sean Malinowski 回憶道,「 Palantir 與我們合作完成一個實驗,創建出了一款態勢感知工具?!? 該測試很快發展成一個調查分析平臺,可以訪問犯罪報告和車牌信息數據庫。Bratton 甚至認為,Palantir 可能只是其很有發展前景的預測警務( predictive policing,即認為歷史數據可以提供線索預測未來犯罪的可能發生地 )計劃的一個工具。他讓 Craig Uchida 擬定了一個計劃,后者是數據驅動治安領域的一名顧問兼研究員。 「在洛杉磯,我們開始思考數據在暴力犯罪領域的用途,分析一下犯罪的發生地點以及原因,」Uchida 說,「 2009 年,洛杉磯警局沒有真正關注于使用數據來達到那些目的。他們有大量的數據,像所有其他的警察部門一樣,但是他們并沒有關注于如何使用它以及使用它來做什么?!? Uchida 熱衷于熱點警務( hotspot policing ):部署警員騎自行車或步行到動亂地區,以緩解緊張局勢并將潛在犯罪扼殺于萌芽狀態。他提出了一個名為「激光(Laser)」的計劃,該計劃將處理六年以來的犯罪數據,從而確定該城市的槍支犯罪高發區域。那些被編號為「激光區(Laser Zones)」的地帶和社區,將進行定期、公開的巡視。 最終被圈定的是牛頓區:洛杉磯南部九平方英里的土地,是 40 多個幫派的聚集地。牛頓區的槍支犯罪惡名昭著,被人們戲稱為「槍擊牛頓」,還成了 Jake Gyllenhaal 導演的警察電影《End of Watch》的故事發生地。2011 年,就在「激光計劃」開始前,牛頓區的槍支暴力程度在洛杉磯 21 個區中排名第 3。 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2017-10-22 11:06:00
10月18日報道,Google大腦項目聯合創始人、前 百度 首席科學家 吳恩達 將出任 Woebot 公司新任董事長,該公司擁有一款同名聊天機器人。這款機器人旨在利用源于認知行為療法的技術,幫助人們解決他們的心理健康問題。該療法通過制定個性化的應對策略,幫助患有抑郁癥和焦慮等精神疾病的用戶管理自己的情緒。 據斯坦福大學的研究顯示,在使用Woebot聊天機器人兩周后,用戶的抑郁和焦慮癥狀有所減輕。吳恩達認為, 機器學習 技術能夠為精神健康領域帶來極大的福祉,因此他才決定與Woebot合作。據吳恩達在接受采訪時稱,在出任Woebot董事長后,他仍將從事其他項目。他將僅參與董事會工作,并為Woebot提供支持,而非在該公司擔任全職工作。例如,他將繼續在自己聯合創立的在線學習網站Coursera教授深度學習系列課程。 在辭去百度機器學習項目主管的職位后,醫療保健成為了吳恩達目前工作的重點。今年早些時候,與他合作的一個斯坦福大學研團隊發布報告稱,他們已經訓練出一個機器學習系統,能夠比心臟病專家更精確地解讀心電圖。 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2017-10-20 09:38:00
  通過對 AWS 披露的薪資和職位分析后發現,不算股票獎勵和獎金,亞馬遜龐大的云計算業務部門工作經驗僅一年的員工最多可以拿到 185000 美元。   美國公司現有或潛在的外國勞工申請H-1B 簽證時必須披露薪資。外國勞工認證辦公室每年都會公布薪資數據。通過分析找出 AWS 內薪資最高的崗位,并利用職位發布找出有關職位的更多信息,包括主要職責以及需要多少年的經驗。   雖然 AWS 的基本薪資似乎不如亞馬遜的整體薪資那么高,但值得一提的是,數據不包括股票和獎金,而股票和獎金是 AWS 薪酬的大頭。   Levels.fyi 是在崗工程師提交工資和總薪資的網站,它顯示股票和獎金在 AWS 工程師的年度薪酬中占大頭,尤其是級別較高的工程師。   比如說,該網站列出一名首席軟件開發工程師的平均年薪是 162000 美元,但平均總薪資達到 552000 美元,包括每年 333000 美元的股票收益和 57000 美元的獎金。   通過分析 2020 年亞馬遜云計算部門近 700 份有效的外國勞工簽證,查找薪水最高的職銜,并給出了每個崗位的薪資范圍。當然,由于數據只包括美國以外員工,這并非全面地介紹薪水,但罕見地披露了這個云巨頭向員工支付多少薪水。   以下是薪資范圍高位數達 185000 美元的 10 個 AWS 崗位以及謀得這些崗位所需的條件:    軟件開發工程師 III 年薪:146300 美元至 185000 美元(101 萬~128 萬人民幣)   主要職責:軟件開發工程師 III 是 AWS 中級別最高的工程崗位之一,僅次于“首席軟件開發工程師”。聯邦數據中僅為首席軟件開發工程師列出了 160000 美元這一份年薪,但該崗位很可能通過股票獎勵和獎金獲得高得多的年薪。   需要幾年的經驗:至少四年的軟件開發經驗。   其他級別的工程崗位的薪水和所需經驗: 軟件開發工程師I: 年薪在 93184 美元至 160000 美元。入門級,但要求熟悉至少一種現代編程語言。 軟件開發工程師 II: 年薪在 114800 美元至 182000 美元。至少兩年的非實習軟件開發經驗。 首席軟件工程師: 年薪 160000 美元(聯邦數據中僅列出了一份年薪)。至少 10 年的工程經驗。    軟件開發經理 III 年薪:142300 美元至 185000 美元(98 萬~128 萬人民幣)   主要職責:“您將負責領導一個多職能部門團隊來設計、開發、測試和部署新的功能和產品。您還將負責招聘和培養一流人才,并為團隊制定戰略愿景?!?   需要幾年的經驗:至少十年的專業軟件開發和工程管理經驗。    高級經理,企業客戶工程師 年薪:185000 美元(聯邦數據中僅列出了一份年薪)   相似的職位發布:企業客戶工程師 III。   主要職責:“設計、開發和支持全球企業公司運行的基于云的關鍵任務型應用軟件、系統、服務和功能?!?   需要幾年的經驗:視學位而定。    負責人,解決方案架構師 年薪:185000 美元(聯邦數據中僅列出了一份年薪)   主要職責:“與客戶建立深厚的關系,成為值得信賴的顧問,以支持客戶最重要的工作負載,這些工作負載支持客戶的數字化轉型和云計算之旅?!?   需要幾年的經驗:技術解決方案架構師崗位至少十年。    解決方案架構師 III 年薪:137259 美元至 185000 美元(94 萬~128 萬人民幣)   主要職責:“充當客戶、AWS 銷售部門及其他 AWS 團隊之間的技術聯絡人,搭建高度可擴展、靈活且有彈性的云架構,以解決客戶業務問題并加快 AWS 服務的采用?!?   需要幾年的經驗:視學位而定。    應用科學家 II 年薪:144300 美元至 185000 美元(99 萬~128 萬人民幣)   主要職責:“設計、實施、測試、部署和維護創新的數據和深度學習解決方案,進一步提升客戶體驗?!?   需要幾年的經驗:“至少三年的機器學習實際經驗和至少兩年的動手編程經驗,另外要有計算機科學或相關領域的博士學位?!?    高級營銷和現場支持運營經理 年薪:185000 美元(聯邦數據中僅列出了一份年薪)   相似的職位發布:現場支持高級項目經理   主要職責:“確定、定義、制定和維護現場支持項目方案,確定資源需求,并管理項目進度。主辦高質量的現場支持研討會?!?   需要幾年的經驗:至少八年的項目管理經驗,市場營銷方面優化。    首席技術業務開發師 年薪:185000 美元(聯邦數據中僅列出了一份年薪)   類似職位發布:新興設備技術業務開發負責人   主要職責:“領導識別、評估、洽談和執行戰略合作伙伴關系和市場營銷協議的工作,以推動競爭優勢和客戶滿意度,并在全球范圍內支持戰略目標?!?   需要幾年的經驗:至少十年到十二年,具體取決于業務開發經驗。    首席企業客戶工程師 年薪:185000 美元(聯邦數據中僅列出了一份年薪)   主要職責:“制定并執行幫助我們的客戶借助 AWS 平臺繼續發展并取得成功的運營支持策略?!?   需要幾年的經驗:至少九年的技術工程經驗和至少三年“領導 IT 轉型方面面向客戶的經驗”。    解決方案架構高級經理 年薪:185000 美元(聯邦數據中僅列出了一份工資)   主要職責:“作為業務開發和銷售管理團隊的重要成員,確保成功地構建應用程序、軟件和服務,并將它們成功地遷移到 AWS 平臺上?!?   需要幾年的經驗:眾多技術和面向客戶的崗位至少十年。
來源:博客園
發布時間:2020-08-25 08:40:00
作者:魏巍 來源:魏巍談企業學習、藍血研究(lanxueyanjiu) 藍血研究文章,如需轉載請通過后臺向公眾號申請   1996 年春節前, 華為所有市場部干部向公司總部提交了一份辭職報告,同時也提交了一份述職報告,兩份報告中,公司批準其中一份。   這一舉動在業內引起了軒然大波。摩托羅拉一位高管說,這種做法放在絕大多數公司,都不知道會產生什么后果。市場人員本來就流動率高,培養一個客戶經理多不容易,剛要出業績又被人挖走,帶走一批客戶關系,你卻要讓他主動辭職,而且幾十個人全部辭去,只有華為有這個魄力!   而在華為,市場部集體辭職不僅沒引起任何騷動,卻變成了一場凝聚團隊的誓師活動。當時的公司總裁孫亞芳代表市場部作了集體辭職演說,她稱這是一次向傳統“官位”挑戰的壯舉,意味著能上能下在市場部不是口號,而是實踐。市場部代表宣讀完辭職信,后許多市場人員自發地走上主席臺,慷慨激昂地表態:   “為了公司整體利益,犧牲個人,我毫無怨言?!?   “華為的企業文化是團結、發展,作為一個華為人,我愿意做一塊鋪路石?!?   “華為的事業長青,不能因為我而拖公司的后腿......”   其他部門的員工也紛紛發言:   “華為為什么是華為?因為有這么多勇于犧牲的個人,團結如一家的員工?!?   “工作了多少年,只有在今天這個獨特的儀式上,才理解到了犧牲的真正含義......”   市場部代總裁毛生江或許道出了當事人的心聲:“我想,任何一個人從很高的位置上退下來,都難免會有很多想法,總會有一段心理調整期,說不在乎是不真實的。我想,也不會有人會心甘情愿地為自己制造一些磨難,如果真是這樣,只能是在給自己臉上貼金,也是不真實的。我當初決定從市場部代總裁的位置上退下來,也確實沒有想到會有現在的收獲。   “關心我的人,經常會問我,我對這些在不在乎?別說我不在乎。我在乎的是華為的興旺和發展;在乎的是一代華為人付出的青春、熱血和汗水;在乎的是我能夠繼續為華為做些什么;在乎的是自己從工作中不斷磨煉出來的自信心;在乎的是戰友們的期望和囑托。其他,比如什么面子、位置等,那些虛的東西,我是真的不在乎!”   市場部成立 5 年,為華為的原始積累立下了汗馬功勞,稱得是一支雄獅勁旅。為什么公司要將這支“鐵血部隊”全部換血呢?華為決策層的觀點是:   其一,“我們的對手足夠強大,強大到我們還沒有真正體會到。我們和競爭對手比,就像老鼠和大象相比。我們是老鼠,人家是大象。如果我們還要保守、還要僵化、還要固步自封,就像老鼠站在那里一動也不動,大象肯定一腳就把我們踩死了。但是老鼠很靈活,不斷調整方位,一會兒爬到大象的背上,或者鉆到大象鼻孔里,大象老踩不到,它就會受不了。我們必須要有靈活的運作機制和組織結構體系?!?   的確,一個兩萬元人民幣起家的民營企業,甫一誕生,就在自已家門口遭遇外來的龐然大物,幾乎毫無優勢可言,唯一取勝的可能,就是比獅子更勤奮,像狼一樣奮不顧身,比大象更靈活,如老   鼠一般左右周旋,快速行動。   這是華為創業以來一直面對的現實,現實逼出了市場部的變革。   其二,“兵為將用”而非“兵為將有”。   有人將任正非治企與曾國藩治軍進行比較,認為二者有相似,這其實是種誤解。湘軍得以快速壯大的“兵為將有”的募兵制,恰恰是現代組織治理最應該警惕的制度。甲午戰爭的慘敗固然有多種因素,但“兵為將有”的軍事組織和文化是核心原因之一。北洋水師霍霍備戰之際,南洋水師的統帥則作壁上觀,朝廷上的諸大臣多數也暗懷期待:以一場對外戰爭消耗掉李鴻章的實力。甲午戰敗后,梁啟超評論:李鴻章以一己之力敵日本全國。   歷史是一面鏡子。當“兵為將有”帶來湘軍的迅速擴張,并進而一舉平定太平天國這一眼前內亂時,大清朝未來不久的四分五裂便也同時被命定了。   “兵為將用”,但萬不可“兵為將有”。華為早期的發展有點“募兵制”的表面影子,“人你去找,事你去干”,但任正非從一開始就對組織內部的抱團現象,包括所謂“下級對上級的高度忠誠”“同學   會”“同鄉會”等抱有高度警惕;華為的干部頻繁輪崗、能上能下、可左可右的“旋轉門”制度,某種程度上大大降低了組織發展中的山頭現象。市場部集體辭職的做法,今天看來,無疑是極富遠見的舉措。   那么,兵為誰有?為創始領袖所有嗎?當然不是。組織中的任何人都只能為組織所有。任正非在華為內部不交一個朋友,不搞所謂“公權私授”,以及所謂“推恩及人”——一切以面向客戶的奮斗和貢獻為標準,正是以行動對此做出的鮮明回答。   其三,啟動與國際接軌。   任正非說:“市場部的集體辭職,行動是次要的,精神是主要的,它是啟動與國際接軌的里程碑;它推動了公司干部大調整的行動,使人們不會感到精神上的失落;它把本來可能產生的阻礙因素轉化為動力。由于市場部的啟動,全公司每個部門都在自覺不自覺地啟動。沒有干部的國際接軌,沒有組織的國際接軌,所有國際接軌都是假的,都是不可能實現的。干部能上能下是正常的,下去的干部不見得將來就上不來,也不見得上來的就能升得更高。沒有基層工作經驗的人不能做科級干部,沒有周邊工作實際經驗的人不能做部門經理。一定要不斷深入到實踐中去,在實踐中尋找新的線索和發展。只有實踐才能全面檢驗真理?!?   顯然,市場部集體大辭職只是個切入口,華為決策層期待攪動起整個公司變革的旋風,使得更多部門都能有一種面向市場、面向客戶的緊迫感;更重要的是,與國際接軌。華為在這階段已經開始了與 IBM 咨詢管理團隊的接觸。   之后的 IPD 變革對華為來說是一種脫胎換骨式的革命。最大的阻力來自哪里?來自個人權力的被剝奪或重新分配,來自人的“權力本位”的傳統觀念?;剡^頭看,當年的市場部集體辭職與《華為基本法》的雙軌啟動,其實就是在為即將到來的制度和流程的全面變革做組織和輿論上的雙重準備,既像實戰前的組織壓力測試、吹響沖鋒號之前的預演,又是實實在在的排兵布陣。與此同時,也將 IPD 變革可能帶來的劇烈震蕩提前釋放了一部分,到真正“削足適履”之時,“美國鞋”已經不是那么太夾腳了。   一年后,IBM 咨詢管理團隊進駐,華為開始了轟轟烈烈、長達二十年的組織變革。    鳳凰展翅再創輝煌   ——任正非在“市場部集體大辭職四周年頒獎典禮”上的講話   我首先認為不應該是發獎章,而是發紀念章,因為發獎章就一定得有評委,而評委的水平至少要比獲獎人高。我認為你們的精神是至高無上的,沒有人可以來評論你們,你們過去行為的檢驗是不需要任何人來評價的,你們的精神是永存的。   市場部集體大辭職對構建公司今天和未來的影響是極其深刻和遠大的。我認為任何一個民族,任何一個公司或任何一個組織只要沒有新陳代謝生命就會停止。只要有生命的活動就一定會有矛盾,一定會有斗爭,也就一定會有痛苦。如果說我們顧全每位功臣的歷史,那么我們就會葬送我們公司的前途。如果我們公司要有前途,那么我們每個人就必須能夠舍棄小我。四年前的行為隔了四年后我們來作一次評價,事實已向我們證明那一次行為是驚天地的,否則也就不可能有公司的今天。毛生江從山東回來,不是給我們帶來一只燒雞,也不是給我們帶來一只鳳凰,因為雖說 燒不死的鳥是鳳凰 ,但鳳凰也只是一個個體,鳳凰是生物,生物是有時限的。我認為他給我們帶來的是一種精神,這種精神是可以永存的。孫總是市場部集體大辭職的帶頭人,但她受傷害最小。在市場部集體大辭職中毛生江是受挫折最大的一個人,經歷的時間也最長,但是他在這四年中受到了很大的鍛煉,也得到了很大的成長。孫總給《華為人》報交代,要寫一篇文章,把這種精神好好記述,并號召全體干部向他學習。   大家已經看到了我們高層領導的干部任職資格標準,知道了對高層干部的評價標準也發生了變化。如果沒有市場部集體大辭職所帶來對華為公司文化的影響,我認為任何先進的管理,先進的體系在華為都無法生根。市場部集體大辭職是一場洗禮,他們留給我們所有人的可能就是一種自我批判精神。如果說四年前我們華為也有文化,那么這種文化是和風細雨式像春風一樣溫暖的文化,這個文化對我們每個人沒有太大的作用。必須經過嚴寒酷暑的考驗,我們的身體才是最健康的。因此市場部集體大辭職實際上是在我們的員工中產生了一次靈魂的大革命,使自我批判得以展開。作為我個人也希望樹立一批真真實實燒不死的鳥作鳳凰。有極少數的人是真正“在烈火中燒”,如果說他們能站起來,那他們對我們華為人的影響是無窮的。   孫總去非洲之前專門向我交待,這次市場部活動一定要讓各部門、各個口的有關領導來受一次教育,一定要好好向毛生江學習。如果沒有這個精神,那么以后的改革還是會有問題的。好在總算有這一次的榜樣,好在總有四年歷史的檢驗。有人痛苦三個月是沒有什么問題的,半年或許也是沒什么問題的。但是四年,相當于人的生命的多少分之一,不是誰都能夠受住這么長時間的考驗。所以向市場部特別是向毛生江學習這種精神,我認為是華為公司員工可以遵循的一種標準。人的生命是有限的,但他的精神是抽象的,是永恒的,我認為應把這種精神記述下來,流傳下去。我相信這種精神是可以在華為公司傳播下去的。傳播下去的基礎是什么,就是我們在公司堅定不移地推行任職資格標準。只要不順應這種標準,那么你永遠也爬不上來,只要順應這種標準,那犧牲則必然在自我之中了。自我批判的目的是不斷進步、不斷改進,而不是停留和沉溺于自我否定,所以,我們每個人要對照任職資格標準,拼命學習,不斷修煉和提升自己。我認為今天的意義非同小可,我相信一定會對我們的發展產生重大的影響。這四年來是由于一部分人能忍受痛苦,能給我們后人作一次榜樣,華為才發展到今天。同時我認為明天更偉大、明天更需要我們加強自我批判。   第二個問題我要講的就是去年你們的工作做得不錯,你們也做了總結,去年銷售額達到 120 個億,特別是貨款回收達到 88 億。應該說去年的市場環境非常困難,回收貨款的環境也錯綜復雜,但是我們都做得非常優秀。這兩項行為如果讓我們用一種方式來表達的話,這也是一種壯舉,它奠定了 2000 年我們敢于發展的基礎。這兩個事情合在一起就是壯舉,孤孤零零一件事情可能不僅不是壯舉,有可能還是悲劇。大家想一想,如果去年銷售額只有七、八十個億,我們今天敢坐在這開會嗎?因為,可能產生不了利潤,甚至成本高到不能分攤。沒有良好的市場銷售量的支撐,作為領導的心里面沒有底,那今年敢不敢發展?其實敢不敢大發展也就是一念之間,戰爭的勝負往往也就是將領在一瞬間對這個事情的決策。如果覺得去年才賣那么一點,今年也不可能賣得再多了,我們沒有利潤,不敢再投入,不敢去抓住機會,也許會裁掉一點隊伍,或者不敢招聘優秀員工,那么我看我們今年大發展是沒有希望的。不是我們不想發展,而是我們不敢發展。   再試想一下,你們去年銷售額 120 個億,而貨款回收只有 50 個億,這么多款沒有收回來,怎么還會有信心。心中想 2000 年即使我們能賣 200 億,貨款也這樣收不回來,現金流會不會中斷,資產負債率相當的高,我們還敢不敢再發展?如果再發展,當現金流一旦中斷,我們公司會不會全軍覆沒?如果賣了 120 個億收不回貨款把我們拖得半死,還不如只賣七、八十個億。   如果說這兩個行為只有一個是成功的,我認為那不能叫壯舉,只能叫做悲劇,可能就會葬送華為公司。大家回想一下五、六月份的情況,五六月份的市場既蕭條又混亂,西方公司低價拋銷,惡性搶占市場,我們整個市場系統沉不住氣了。在這個時候孫總踩了剎車,我加了油門。孫總踩剎車是指削掉銷售計劃 40 個億,但要求不能再降價。我加了油門是指讓總載辦的人都去收款。結果銷售目標完成得這么好,貨款回收這么好。在市場出現混亂時,我們保持了隊形不亂,大家排著隊,打著鼓,唱著歌,齊步向前進。結果剛好我們就把可能出現的悲劇變成了壯舉。孫總在非洲也委托我感謝你們兩個部門,是你們給公司很大的幫助。如果說五、六月份這種混亂狀態沒有停下來,或者我們蕭條下去,或者我們消沉下去,或者我們順應這種自然發展而不抗爭下去,很可能我們今天就會變成一個連生存都很危險的公司。   第三點我想說的就是我們今年最重要的市場舉措就是建立地區客戶經理部(地區客戶代表處),要以改善客戶關系為中心來建立,到時我們的客戶代表管理部、國內營銷部、區域機構管理部可共同對這個地區客戶經理部或地區客戶代表處實施管理。這就是說我們要把碉堡建到每一個前沿陣地去。中國總共有 334 個本地網,將來即使聯通或是其他網絡營銷商估計也會按這種結構來布局,我們不分對象都提供優質服務。所以我認為我們地區客戶經理部的建立是非常正確的,他會使我們的工作做得更加精細,因為各個層面客戶滿意度的提高是保證我們持續增長的基礎。   我們在全國各地建立了很多合資企業,大家知道客戶經理部就是一個個碉堡,而本地化合資就是通向這些碉堡的一條條戰壕。我們在多層次上和客戶建立了全方位的關系,我可以說這一點西方公司是做不到的,沒有一個人會為西方公司賣命而到一個偏遠的地方去守陣地甚至守上幾年而不回家。西方公司實行的價值觀和我們公司的價值觀不一樣,我們有很多在地區工作的地區客戶經理們非常辛苦,生活條件也很差,但是他們從不退縮。我們要把這一個個碉堡建設起來,今年還要再擴大這些碉堡的覆蓋,我們只要守住這一個個碉堡,挖通一條條戰壕,我們就會有更大的收益。我們還可以用些收益反投進去改善服務,我們會有更好的條件。這是個戰略的決策,因此各個部門,各個辦事處主任都要認真進行這個部門的建立,不要打折扣,不要看到他們房子裝修得好一點,一個人住一間就眼紅,否則你自己下去。隨著市場的發展,只要是客戶關系比較密切的,都應該建立地區客戶經理部。但是我們和客戶間的合作也應是有原則的,喪失了原則是不好的,無限制的屈從也是不能成功的。在改善客戶關系方面也要有指導書,可以按照指導書去做。   我認為這是公司的一個新的戰斗舉措。所以公司在新的一年中的市場舉措大家要理解,特別是如果有些人要分到艱苦地方去,我希望他不要計較,要向毛生江學習,打起背包就出發,我的講話完了,謝謝大家!
來源:博客園
發布時間:2020-08-25 08:27:00
由武漢大學新聞與傳播學院、武漢大學媒體發展研究中心、財新網和中美教育基金聯合主辦、鏑次元 數據新聞 研究中心協辦的 第三屆數據新聞比賽 獲獎名單及前20、50入圍名單出爐??靵砜纯椿湔l家? 比賽于2017年8月15日截止報名,報名期間共收到272個團隊的1067人參賽申請。最終,提交的參賽作品有119件,經評委會認定有效作品102件。最終有7件作品獲得本次比賽的獎項,前50名作品榜上有名! 獲獎名單如下: 特等獎 184號 《兩萬條數據給你最準確的北京租房素描》 武漢大學:靳海蓮、杜俊成、史晨瑾 一等獎 10號《霧霾十三年》 中國人民大學:陳庭玉、徐也晴、管彤; 指導教師:方潔 二等獎 115號《高等教育資源這塊“蛋糕”該怎么分?》 浙江大學:徐婷、吳春霆、 浙江大學CAD&CG實驗室:張瑋、馬昱欣 187號《十字路口的鋼鐵行業》 宗涵、李斐,中冶賽迪工程技術股份有限公司; 周宇杰,成都雨珂醫療科技有限責任公司;汪磊,西南交通大學 三等獎 265號《美國人眼中的中國文化符號》 趙鹿鳴,華東師范大學;徐安可,中國地質大學;張仁堯,上海師范大學 指導教師:申琦(華東師范大學);葉韋明(北京大學深圳研究生院) 254號《暗流:恐怖網絡的誕生》 劉智,臺灣交通大學管理科學系碩士班 138號《現階段“移動NICU”需求缺口分析——以廣東省為例》 中山大學:曾樂、邱一耕、楊妍琦、許悅瑾 前20、50入圍名單見文末鏈接 注:由于沒有符合評選標準的研究報告,故此類獎項空缺。 獎項詳情請參見官網:http://file.caixin.com/datanews_mobile/competition2017/ 獲獎作品將于接下來的一周展出,敬請期待! 主辦方 協辦方 戰略支持伙伴 點擊閱讀原文,一睹本屆比賽獲獎及入圍作品的風采吧! http://www.dydata.io/article/p/918459174501949440 本文由 dydata 投稿至 數據分析網 并經編輯發表,內容觀點不代表本站立場,如轉載請聯系原作者,本文鏈接:https://www.afenxi.com/48478.html 。
來源:數據分析網
發布時間:2017-10-17 06:30:00
  蕭簫發自凹非寺   量子位報道公眾號 QbitAI   寫論文時,手敲成堆的計算公式,被虐到頭禿?   做講課 PPT 時,幾十頁的計算推理公式,恨不得直接手寫拍照?   現在,解放雙手的時刻來了,只需要掌握 一點 Python 語法 ,上面的公式只需要 4 行就能生成,其中 3 行還是 Python 的計算公式。   △ 沒錯,就是這幾行   這款名為 handcalcs 的工具包,生成 LaTeX 公式,但不用學 LaTeX 復雜的語法。   關鍵是,大小 只有 4.6MB ,相當于 Jupyter 里一個小小的插件。   平方、平方根、分式、三角函數、腳注……這個插件的功能五臟俱全,不僅能生成公式,還能計算結果。   此外,也有單位換算、格式調整等功能。   來看看它的用法。    基礎版:公式+計算   裝上 handcalcs 插件后,Python 就從一個無情的計算器,升級成了華麗的公式生成器。   在 Python 語法基礎上,將計算公式呈現為 LaTeX 格式,只需要加 一行代碼 。   沒錯,這行代碼就是%%render。   也就是說,如果你想要生成 LaTeX 公式,只需要在計算公式前加個%%render。   不僅如此,Python 還會自動幫你計算出結果。   如下圖,先設好 3 個參數a、b、c的值,然后用 Python 列出表達式,在最前面放個%%render。   然后,列出x的表達式。   duang 的一下,x用a、b、c表達的結果就展示了出來,而且還算出了結果。   再也不用輸入大段 LaTeX 的復雜語法,生成復雜的計算公式了。   此外,如果想在函數中用這個工具插件,那就再加一行@handcalc (),但要注意 return locals (),像這樣:   生成的效果也是一樣的。   此外,如果需要在公式中加上判斷條件,系統也能生成。   至于積分什么的,生成起來也無壓力。   你以為這就結束了?   還早,生成 LaTeX 公式只是這個工具的基礎用法。    進階版:格式+單位換算   此外,handcalcs 還帶有格式調整、特殊字符、 單位換算 等功能。    格式調整   首先,是對參數格式的調整。   如果你在某個公式中用到了好幾個參數,但這些參數單獨占一行會導致浪費紙張可讀性很差,那就試試加一行##Parameters。   這樣,一行里面就能放 3 個參數,而且不占很多地兒(減小行間距)。   當然,如果一行公式看起來太擁擠,還能調整它的長短。   只需要在公式前面加上#long 或者#short,公式就能根據你的心意變成幾行,使推導過程看起來更清晰。   此外,如果不想在結論中給出計算結果,只保留參數公式,也是可以的,在前面加個#symbolic 就好了。   如下圖,原本的計算結果就會被隱去,取而代之的是只有參數的表達式。   △當你的數學老師想讓你計算公式時   而如果想在公式后面加些注釋(或者「式 3.1」這種東西),這里也能直接生成。   此外,對于特殊字符的生成,這里也有方法。    特殊字符   如果你需要在字母右下角標些腳注,有的腳注可能還會「套娃」。   沒關系,用一個下劃線就能搞定,一個不夠,就多來幾個。   此外,有著各種奇怪念法的希臘字母、還有特殊字符等,這里也能根據讀音生成。    單位換算   最關鍵的是,handcalcs 絕不僅僅是數學計算式生成器,它還帶有單位換算的功能。   如果是物理方面的計算公式,輸入表達式和單位后,handcalcs 能自動生成單位換算結果。   這樣的話,就不用再費勁地列量綱,看這兩個單位相乘相除的結果究竟是個啥了。    轉成 LaTeX 語法   當然,如果你想將生成的 LaTeX 公式還原成 LaTeX 語法,粘回 LaTeX 中去用,這里也提供了非常便捷的操作。   只需要一個%%tex,handcalc 就會自動幫你生成 Latex 語法。    小限制   不過,這個工具包也有一些小限制。   例如,并非所有的數據類型都適用,例如 Python 的「容器數據」(collections)。   此外,也并非 Python 中的所有公式都適用,例如 for 就不支持這個工具的渲染。   但除了這些小限制外,這個工具包不失為一個強大的公式生成器,論文中需要生成的公式基本都夠用了。   還有一些其他的細節功能,可以戳下方傳送門查看。    作者介紹   這份工具的制作者 Connor Ferster,并不是計算機專業出身,不過他對 Python 很感興趣。   據 Conner 在社交媒體上的自我介紹,他目前是一名土木工程系的學生。   所以,土木工程論文需求的計算量可能真挺多的?    傳送門   工具包鏈接:    https://github.com/connorferster/handcalcs
來源:博客園
發布時間:2020-08-25 08:23:00
摘要:本講座選自清華語音語言實驗室副主任王東于2016年1月19日在RONGv2.0系列——”語言語音語義與 大數據 技術”專場上所做的題為《語音識別中的 大數據 與小數據學習》的演講。 謝謝大家。剛才劉老師已經把很多的東西說得很清楚了,我覺得我已經可以走了J。但是既然來了,還是應該給大家說一說。劉老師在一個比較宏觀的場景下給大家介紹了整體的技術發展現狀,我稍微聚焦在一個特別小的地方,給大家一個參考。 我今天給大家報告的題目是語音識別中的大數據與小數據的學習。什么意思呢?我們都需要大數據,今天的會也是個大數據的會。問題是很多時候我沒有那么多大數據,怎么辦?我們希望有一種辦法,在沒有很多的數據的時候,用小數據實現大數據的能力。 語音識別大家都知道很火爆,很多商業公司推出了語音識別服務??傮w說來,語音識別其實是 人工智能 的一個分支,我們希望跟機器交互的時候能夠實現比較自然的交流,而不是通過文本打字,這在未來是一個必不可少的智能交互手段。 這是大約直到5年前還統治世界的這么一個語音識別技術框架,叫HMM-GMM模型。最早是由IBM的Fred Jelinek和CMU的Jim Baker 這兩位提出來的。在這之前,語音識別一直是拿兩段聲音互相匹配,即動態時間彎折,DTW。但這種模板匹配方法很難處理語音中的不確定性問題,所以人們開始思考用統計模型對語音建模。你不是有很多不確定性嗎?那我們就用統計方法來描述這種不確定性,把不確定性放在模型里面。這即HMM-GMM方法,從80年代一直到2010年左右的語音識別系統框架。該框架主要分三個組成部分。最底層是特征提取。我想去識別你的語音,首先我得把最顯著的特征提取出來,一般用的特征叫MFCC的特征。第二個部分是描述發音不確定性的靜態概率模型,即GMM模型。第三個部分是描述發音時序特性的動態概率模型,即HMM模型。這三個部分組成HMM-GMM系統框架,在很多領域都可應用,特別是對語音識別尤其有效,因為語音信號具有很強的動態性,適合用該模型描述。 有了這個框架之后,Fred和Jim兩位先驅就提出這么一個到現在還在用的公式,即后驗概率最大化識別準則。從80年代起直到大約在5年前,我們一直都是這么做語音識別的。一個重要的問題是,有了統計模型還不夠,需要用數據來對模型進行訓練,或者說,使模型能適應某一任務的數據。當時就提出這么一個說法,叫“No data like more data”,意思是說只有有了Data這個模型才有意義,Data越多越大,模型效果越好。 2010年的時候世界發生了很大的變化。第一件事情特征提取過程的簡化。傳統的特征提取方法,如MFCC,要用很多步驟來提取出特征?,F在我不需要你人為地設計出這么多復雜的步驟,我直接給你一個語音信號的原始信號,或者簡單的原始譜,你把語音特征提取過程用深度神經網絡學習出來。這意味著人們不再需要去費勁設計各種特征提取方法和步驟,人的壓力就減輕了,而且因為學習得到的特征提取方法和任務目標更匹配。另一件事情是傳統GMM模型被深度神經網絡模型取代。傳統GMM模型通過混合若干簡單高斯模型來生成較復雜的概率分布模型,可以描述語音信號的靜態分布特性,但對不同發音的區分性不夠。用深度神經網絡取代GMM,可以直接描述后驗概率,增加發音區分性。第三件事情是傳統的HMM模型被遞歸神經網絡取代。RNN模型是比HMM更強的描述動態特性的工具,將HMM中的離散狀態描述變成連續狀態描述。所以,基本上 深度學習 是把原來的模型和方法全部推翻了,用神經模型代替了概率圖模型,將原來人工方式做的事情變成了一種學習的方式。這是一種非常翻天覆地的變化。 現在的語音識別基本是這個樣子的,整個一套系統不再有那么多復雜的模塊,基本是由神經網絡將從語音信號到說話內容端到端的學習出來。這幅畫劉老師也提到過,由于深度學習的引入,語音識別系統的性能大幅提高。 今天是大數據的講堂,我們看語音識別和數據有什么關系呢?在我看來,從我學習語音識別開始,我們就知道data是非常重要的東西,基本上做語音識別一大部分工作是在做data。這幅圖告訴我們什么事呢?告訴我們兩件事,首先數據很重要,數據越多,性能越好。還有一個事,基于DNN的系統在數據增大時的效果提升更明顯。這意味數據重要,模型更加重要,只有數據和模型匹配的時候才能學到更多的東西,只有這兩個加在一起的時候才能實現“大數據”。感覺現在似乎是說我們還需要data,但并不像以前那么迫切。因為神經網絡的靈活性,數據少我們可以干小事,數據大我們可以干大事,而不是像以前一樣必須有大量數據,小數據我們一樣會干的不錯。換句話說,是我們現在對data的依賴有所下降,我們還是很希望數據,但并不饑渴。We are datahungry,but not starving。 事實上作為語音研究者,在大數據火爆之前我們一直不覺得自己是做大數據的,即使現在我們也不覺得自己是做大數據的。為什么呢,因為我們覺得手頭的數據并沒有那么大。 具體來說,(1) 原始數據很大,標準數據很少;(2)低質量的數據很大,可用的數據其實并不多;(3)中英文數據很大,很多主流語言有很多數據可以得到,但是一些少數民族語言、小語種很難得到數據;(3)收費數據很大,免費數據很少,很多數據是有,都在公司里,都要你錢的,其實沒有多少數據供研究者免費使用;(4)信息含量很大,可用信息很少。我現在說話,大家能聽到我的聲音,其中包括各種信息,包括說的什么話、什么口音、什么性別等。這里邊信息量很大,但是我們能用的東西確實非常非常少;(5)積累速度很快,一天積累無數的數據,但是能處理的很少,計算機的計算量是有限的。剛才劉老師說的四個V(Volume、Velocity、Variety、Value),似乎好像看起來對語音數據來說,Volume是適合的,其他幾個都不是特別好。這意味著其實我們只是看著像大數據,其實并非如此。另一方面,因為語音信號里邊確實有很多信息,所以我們來認為我們潛力很大,我們的數據里面可以挖到很多東西,但是到當前能夠利用的,或者已經利用的東西還是非常非常少。一方面我們的技術可能沒達到那種程度,第二說明我們還有潛力,未來我們可能真的可以稱為大數據研究。 我們希望干什么事呢?比如現在如果數據量很大,好幾十臺、上百臺CPU同時訓練,那當然是最好的。但這畢竟并不容易,除了Google、百度有那種能力之外,我們大多數研究機構還是沒有這種能力。退而求其次,我們希望用小數據做大數據的事情。我們數據有限,但是我們還是希望能夠得到一些大數據能得到的好處。 可能的方案有哪些呢?比較著名的可能是非監督學習。比如圖上這個機器人看了很多書,這是監督學習;但是有的時候沒有這些書,它就滿世界轉悠,看到一些東西記下來,用這些來豐富自己的知識,這是非監督學習。半監督學習的意思是,可能我學了一點東西,但是沒有太多的東西可學,因此可以利用學到的一點知識,為其它沒有標注的數據進行標注,以擴大學習樣本。弱監督學習,比如說沒有那么多標好的語音,但是網上有很多有聲小說,如《盜墓筆記》等,這些小說有人幫你讀出來了,因此可以利用里邊的數據進行弱監督學習。另外一些方法包括數據合成和轉移學習,這是我想給大家分享的重點。 首先是數據合成。我們有一些數據,但數據總量有限。我可以用這些種子數據造出一些數據來。比如我現在需要噪聲數據,把種子數據里加一些噪音,這些噪音可以是各種各樣的,可以是機場的噪音,也可以是白噪聲,也可以是咖啡館的聲音。雖然我們沒有這些噪音為背景的語音,但是通過人工加入這些噪音,在訓練的時候這些噪音信息還是加進去了。通過訓練,那些不容易被噪音破壞掉的語音成分被突出出來,增強識別效果。左邊這幅圖是加噪訓練的一個例子。我們往原始的DNN模型的輸入端加入噪音,通過學習,可以看到在噪聲環境下的識別性能顯著提高,對純凈語音性能幾乎沒有影響。 加噪編碼器,或者DAE。這一模型在很90年代就提出來?,F在研究者傾向認為,通過噪音訓練的編碼器等價于學習一個低維的子空間,這些低維子空間對噪音不敏感。這一理論最初是基于白噪聲,后來大家又做了擴展,加入其他噪音發現結果也不錯。比如說可以加一些敲門聲,DAE就可以把敲門聲濾掉,把跟敲門聲無關的信息學出來。同樣的方法還可以學習和濾除回音。 我們用這一方法可以去掉聲音中的音樂。音樂很規則,很有規律性,利用這點,我們可以用DAE學習音樂的特性。這是原始的語音,加入一些Piano,或加入Rap音樂。我們可以看到,加上這些噪音以后識別效果就變得非常差。這說明音樂對語音識別影響很大,越是跟人聲越近的音樂影響越大。 我們試圖用DAE學習音樂特性。左圖為一個DAE,輸入的語音信號里面加入一些音樂噪音后生成的Fbank特征。輸出是原始純凈聲音的Fbank。通過學習,可以有效濾除這些加入的音樂。特別有意思的是,這里面加入Piano進行訓練后,得到的模型對其它音樂學習也有好處。這證明音樂是具有共性的,學習一種音樂對其它音樂噪音也是有好處的。 另一種方法是轉移學習。這里有兩個機器人,這個機器人先知先覺,學了很多東西,這個機器人將這個知識傳到了另外一個機器人那里,第二個機器人在沒有數據的條件下也學得了很多知識,這一方法叫做轉移學習。 基于深度學習的轉移學習方法早在2009年就已經提出來,近年來得到廣泛應用。如圖所示,我把各種各樣可能的數據或特征都給它扔進神經網絡,網絡的中間層用來表征由各種不同的知識得到的共享的、共用的特征。例如,輸入既可以是中文,也可以是英文,可以是機場環境,也可以是辦公室環境,但是不管什么輸入,都共享中間層,這樣各種數據資源之間可以共享信息。用了這樣一個共享信息的網絡,網絡基本架構已經成型,實際應用的時候只要一些簡單的數據進行自適應就可以得到很好的結果。 具體到語音識別里面,我們做了哪些事呢?有很多很多種方法,我們覺得有些比較有價值的可能是,第一個是跨語言轉移學習,第二個是跨模型的轉移學習, 為什么要考慮跨語言呢?因為不同語言的數據分布是非常不均勻的,某些語言數據量非常大,某些語言數據很小。人類語言總共有五千多種,其中389種語言覆蓋了94%的人群,剩下的那么多的語言其實很少有人說。所以從這個角度來說,其實絕大部分的語言都是閑置的,和大數據不沾邊。同時,語言現象是隨時變化的,今天說一件事,明天可能說另一件事,差別很大,所以要想一個模型一勞永逸很難。 轉移學習是解決上述問題的有效方法,基本思路是利用語言之間的相似性。我們想利用語言之間的相似性來共享資源。原始的共享方法是用一套通用的發音系統來標注各種語言發音,這樣不同語言的相似發音就得到了共享。 基于深度學習的語言共享是當前比較有效的方法。如圖所示,輸入層可以輸入各種語言,這些語言共享DNN的中間層,分類層用來在不同語言內部不同發音間進行區分。這是在2012年、2013年做的事情,現在基本上已經成為一個標準框架。 還有一種方法是跨模型轉移學習,什么意思呢?現在學了一個模型,這個模型可以作為一個知識源,或者是作為一個老師,這個老師想辦法去教一個學生,把知識傳遞給學生。有很多種方法實現這種轉移學習。一種方法是相當于老師教學生一樣,我告訴你這個題的答案是什么,然后你照著我的答案去寫過程。還有可能是從中間層給出指導,還沒出答案,我只告訴你中間的解題過程,你把解題過程告訴這個學生,這個學生也可以學到知識。 2014年、2015年發生很多事情,比如說2014年的時候可以用比較復雜的DNN來學習比較簡單的DNN。后來可以用比較復雜的RNN來指導一個比較簡單的DNN,這樣使得NDD達到近似于RNN的效果。這時的研究思路是盡量保證老師把知識盡可能教給學生。 現在有一個問題,當前的方法都是用強的老師來教一個弱的學生。問題是,如果這個老師很笨怎么辦?大家當老師都有這個經驗,很多時候老師不如學生,有的學生比老師還聰明,那老師還能教得了嗎?比如這幅圖里,左邊有一個比較淺的網絡,右邊有比較深的網絡,我可以用淺的網絡來指導深的網絡學習嗎? 非常幸運的是,我們的實驗發現,即使比較笨的老師還是可以教出比較聰明的學生。通過什么方式呢?一種方式就是我可以告訴這個學生,雖然我知道得不是很清楚,但是最開始我肯定比你知道得多,你也許后來可以發展得很好,但是開始至少你還是比我差一點點,所以我就把那一點點東西傳給你,將來怎么發展,師傅領進門,修行在個人。雖然我的這個知識不是特別好,但是我可以讓你先有一個鍛煉,鍛煉的方式可以教給你,然后你自己去學。事實證明,這種方法確實有好處。比如說我們用一個比較弱的DNN,即是比較糟糕的老師去教一個比較強的學生,一個RNN模型。最初的時候,這個DNN老師的錯誤率是11.40。如果聰明的學生從開始自學,相當于把一個特別好的學生扔到一堆書里,自己去看,結果是12.34,這個結果不如一個弱的老師。當這個DNN老師把這個知識傳給學生,聰明的學生拿到老師的知識以后,自己發揮、升華,最后就超過老師了,錯誤率下降到10.10%。這意味著什么呢?意味著老師弱的時候也無所謂,可以教比較聰明的學生。 總結。我們覺得語言和語音的問題很大程度上是一種大數據背景下的小數據問題,因為我沒那么多數據,所以我們不得不用有限的數據做更多的事情?;镜乃悸肪褪枪蚕?。共享在語音識別里面有很長的歷史了,比如基于決策樹的上下文相關建模。未來我們可能需要將語音的、文本的各種信息集成在一起進行更有效的共享學習。另一方面,非監督學習有可能是間接利用語音大數據的有效工具。特別有意思的是深度學習使得小數據到大數據的學習成為可能,沒有這個工具其實我們很難用小數據做什么事。謝謝各位。 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2016-03-27 00:35:00
  猶他大學上周披露,為了避免學生信息泄露,它向勒索軟件攻擊者 支付了 45.7 萬美元贖金。   勒索軟件背后的攻擊者通常在入侵計算機系統加密文件前會先竊取敏感文件,以防萬一受害者拒絕支付贖金,它可以以公開敏感信息的威脅來二次勒索。發生在猶他大學身上的勒索軟件攻擊就是如此。在攻擊中,猶他大學服務器上的文件只有 0.02% 遭到加密,IT 人員利用備份恢復了文件。但攻擊者威脅泄露學生相關的信息,迫使大學重新思考拒絕支付贖金的決定。猶他大學在 聲明 中稱,慎重考慮之后它決定支付贖金。
來源:博客園
發布時間:2020-08-25 08:15:00
摘要:「數據會說謊」的真實例子有哪些? 一個熱門問題下面,昨天看到了一個答案: 「數據會說謊」的真實例子有哪些? – 魚非魚的回答 。作者用誤導性的言論、數據,在數據的選擇和分析,以及結論的得出上面撒謊了。我昨天睡前寫了一個答案 「數據會說謊」的真實例子有哪些? – 許行的回答 來質疑他的文章,今天起床以后發現他文章的問題更多。首先我們來看他的答案開頭, “很多人覺得飛機更安全(飛機是最安全的交通工具嗎? – 飛機),都是看了維基百科上這個國際數據(我也曾是其中一員)” 一開頭一舉就奠定了本文的基調:你們包括我都被騙了, 國際數據是騙人的,我們要來針對國情進行分析。然后引用了數據并且列出數據來源。似乎好專業呀,又有Wikipedia、網站和期刊。 然而,他完全就是在胡說八道。第一,這個表格中的數據,是來源于Modern Railways(一本大眾期刊)第623期上面根據英國環境、運輸和區域管理部的數據,范圍是 英國本土的各種交通方式(所以表格里面數據顯示,大巴多安全吶)。而他所列舉的第二個數據來源論文的摘要寫道: The authors used traffic exposure data to calculate exposure-based fatal and nonfatal traffic injury rates in the United States. ……Nonfatal injury rates were highest for motorcyclists and bicyclists. Exposure-based traffic injury rates varied by mode of travel, sex, and age group. Motorcyclists, pedestrians, and bicyclists faced increased injury risks. Males, adolescents, and the elderly were also at increased risk. Effective interventions are available and should be implemented to protect these vulnerable road users. 這篇論文是用年齡段、交通方式、性別進行分組研究的,而且,最主要研究的是開車、摩托、自行車這些個人出現的方式!不知道@魚非魚同學是不是從自己平時的論文資料庫里面隨便引用了一篇呢? 所以他的 數據分析 展開就很荒之大謬了,以上都是發達國家的數據,他卻說這些不合適: 好了,按照他的操縱思路,讀者就會說,嗯,國情不同,具體情況具體分析嘛。然后我們來看關于中國的民航和鐵路安全情況。他選擇的是2001-2014之間的數據,數據就不貼了,他的結論是: 直接用不太有說服力的統計數據,在加黑的文字里面,直接告訴觀眾:“在中國,民航的每人公里的死亡率大概是鐵路的5.7倍”。長篇大論,數據“詳實”,觀眾就此被說服,這個答案上千贊都沒有問題。 但是呢,昨天我寫了答案對他的文章進行質疑了 「數據會說謊」的真實例子有哪些? – 許行的回答 ,我的答案提到: (他的)這個時間點選擇上很巧妙。避開了上世紀末一些扎堆的鐵路運輸事故,但是集中了影響我國21世紀航空運輸格局的幾次空難,而且數據似乎有問題,比如某次空難的死亡人數是128人而不是155人,引用了Wikipedia的來源卻自行修改數據,“引用”是用來裝x的么?反正,如果我們選擇最近十年2005年-2014年的數據來看的話,結果如下: 是不是數據就反轉了?我選擇最近十年,也就是2005-2014年的數據是有原因的,大家都知道,科技上有個名詞叫做 代差,有時候新的一代就是能吊打老的一代。對于中國民航來說,21世紀的第一個十年是很關鍵的十年,就本文所論及的飛行安全來說,代差來自于三個方面,而且正是2002-2005年之間的幾次重大空難推動的: a、安全規范的更新,嚴格而全面的飛行要求開始實行。 b、新的機型比如777-300ER、747-8、787、737NG、380、350等的引入,淘汰老的310、MD82等機型,使得我國的飛機平均機齡達到一個很低的水準。 c、航空企業重組,六大航空合并成為現在的三大航,使得航空公司實力更強,管理開始現代化改革。 在2005年之后,中國民航運輸保持了兩個長達五年的飛行安全記錄,2005之前么,700天就發文章昭告天下了。 鐵路運輸上面應該也有代差,我不太了解,就不發表言論了。反正,既然我們比較安全性,而且要得出對現實具有指導性結論的話,就不要跨越代差。而且,本來空難、鐵路事故的發生概率就不大,并且兩個又都是重型運輸系統,我想,除了在知乎上面耍耍嘴炮之外,應該沒有什么實質性的參考價值吧。畢竟對于中國的民航和客運鐵路來說,事故旅客每公里致死的幾率沒有數量級上面的差異。倒是統計分析哪種飛機機型、哪個航空公司、哪個國家的近十年飛行安全記錄,避開比較差的,這樣才是我們需要了解的信息。 來源:知乎 作者:許行 原文鏈接:http://zhuanlan.zhihu.com/flyer/20170910 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2015-12-20 19:28:00
  通過 NASA 資助的 Backyard Worlds: Planet 9 項目,公民科學家在太陽系附近 發現了 95 顆褐矮星——太重而不視為行星但太輕而不視為恒星,介于氣態巨行星和恒星之間的天體。   褐矮星通常表面溫度炎熱,但新發現的 95 顆褐矮星溫度都比較低,部分天體的溫度甚至接近地球,足以使其大氣層存在水云。2014 年,天文學家利用 NASA 的 WISE (Wide-field Infrared Survey Explorer)計劃收集的數據發現了至今最寒冷的褐矮星 WISE 0855,其溫度為零下 23 攝氏度。如此低的溫度令科學家懷疑它是一顆行星??茖W家希望最新的發現能幫助他們了解為什么褐矮星如此冷,或者它們是否真的是褐矮星。
來源:博客園
發布時間:2020-08-25 08:08:00
為此我從投資人的視角,給大家總結了 人工智能 創業的6大核心問題。 第一個問題:互聯網 vs 人工智能 首先如果今天大家選擇創業,我建議更應該關注人工智能,而非互聯網。為什么這么講? 1. 互聯網的流量紅利已經消失; 以PC來說,全球PC出貨量連續5年下滑。大家知道國內最后出現的一個PC互聯網獨角獸是誰嗎?是知乎,大概是2011年初推出,這么多年過去,再也沒有PC互聯網的獨角獸出現。做個類比,我們知道2015年移動互聯網的滲透率和競爭程度和2011年的PC互聯網類似,以此類推,2015年以后再做移動APP,也很難出獨角獸了。 畢竟中國連續兩年手機出貨量都在5億多臺,增長放緩,代表無線流量基本已走平,你多賣一臺,我就少賣一臺,是存量競爭。今天創業者再做一個純互聯網的APP,投資人問的第一個問題就是你怎么獲客。因為現階段流量格局已定,首屏就那幾個APP。 2. 互聯網+的機會同樣有限; 主要在于互聯網最大的價值,是解決信息不對稱和連接。所以對于電商特別有價值。淘寶用皇冠、鉆石等信用體系解決了信息不對稱,同時又把全國有這么多買家和賣家連接在一起。這個是互聯網的價值。 但很多行業信息和連接并不是痛點。 拿醫療舉例,中國三甲醫院的大夫就那么多,你把全國13億人民都和這些大夫連接上了也沒用,因為一個醫生一天還是只能看那么多病人?;ヂ摼W并沒有提高醫生看診的效率。在諸如餐飲、醫療這些傳統領域,互聯網的幫助是很有限的。 也包括滴滴打車,互聯網解決了打車難的問題,但是沒解決打車價格的問題。事實上,補貼去掉之后,大家都發現了滴滴一點都不便宜,道理很簡單——不管是專車還是出租車,還是需要由人來開,人工成本降不下來,就不可能便宜。 3. 真正能夠提高社會生產力,解決供需關系不平衡的就是人工智能; 人工智能將給社會生產力帶來的提高,以及對人類帶來的影響將遠遠超過互聯網。 還是拿醫療來說,很多基層醫院水平不高,那未來完全可以通過人工智能來輔助醫生讀CT、X光等醫療影像。像今年,IBMWatson對皮膚黑色素瘤的診斷,準確率已提高至97%,遠遠超過了人類專家75%-84%的平均水平。 未來,人工智能無論是在無人車、機器人、醫療、金融、教育還是其他領域,都將爆發巨大的社會效益,這點毋庸置疑。 我認為下一波大趨勢和大的紅利不是互聯網+,而是人工智能+。 我建議現在的創業者更應該關注人工智能領域的創業機會。 第二個問題:人工智能 vs 人工智能+ 人工智能主要分三層。最底層是基礎架構(Infrastructure),包括 云計算 、芯片以及TensorFlow這樣的框架。在基礎層之上是中間層,叫通用技術(EnablingTechnology),例如圖像識別、語音識別、語義理解、機器翻譯這些。 基礎層和中間層,是互聯網巨頭的必爭之地。比如芯片領域,Intel、英偉達、高通都投入巨資,競爭極其激烈。同樣云計算、框架也是一樣,都不是小公司能夠涉足的領地。 現在對于中間層的通用技術,BAT也極其重視。因為大家都相信人工智能是下一波工業革命浪潮。 對騰訊、阿里、百度這些巨頭來講,要想在大浪中屹立不倒,必須要構建出人工智能的生態系統(Ecosystem)。 而核心就是要依靠這些Enabling Technology技術。 相比創業公司,BAT的最大優勢是什么呢?第一,不缺數據;第二,為了構建自己的生態系統,未來通用技術一定全部是免費的;第三,雖然通用技術免費,但BAT有羊毛出在身上的豬機會。這是典型的互聯網打法。 這里的豬是什么?豬就是云計算。例如百度的ABC策略,分別代表人工智能( AI )、 大數據 (Big Data)和云計算(Cloud Computing)。AI我可以不賺錢,開放給大家,那么大家想享受我的服務,就來買我的云吧。 而對于創業企業來說,只做圖像識別、語音識別、語義理解、機器翻譯這些通用技術,指望通過SDK賣錢,未來路會越來越窄,特別是BAT都免費的壓力下。 所以從這個角度講,創業公司做下面兩層風險比較大。 我認為創業公司的機會在最上層,就是拿著下兩層的成果去服務垂直行業,也就是我們所謂的人工智能+。 第三個問題:人工智能+ vs +人工智能 深入垂直行業的人工智能+,又可細分為兩類情況:即“人工智能+行業”和“行業+人工智能”,他們間有明顯的區別。 “AI+行業” 簡單講就是在AI技術成熟之前,這個行業、產品從未存在過。比如自動駕駛,亞馬遜的Echo智能音箱、蘋果的Siri語音助手。在人工智能技術未突破前,不存在這樣的產品。因為AI,創造出了一條全新的產業鏈。 “行業+AI” 就是行業本身一直存在,產業鏈條成熟,只是以前完全靠人工,效率比較低,現在加入AI元素后,使得行業效率有了明顯提高。比如安防、醫療等領域。 客觀講,這兩個類別都有創業機會。但“AI+行業”,因為是一條新的產業鏈,創業公司與互聯網巨頭實際是處在同一起跑線上。巨頭們坐擁數據優勢。所以從這個角度,“行業+AI”相對對創業公司更為友好,也更容易構建出壁壘。 我認為, 未來行業壁壘才是人工智能創業最大的護城河。 因為每個行業都有垂直縱深, 盡管BAT技術好一點、并不關鍵。拿醫療+AI舉例,什么最重要?大量準確的被醫生標注過的數據最重要。沒有數據,再天才的科學家也無用武之地。 但在國內,這個醫療數據拿出來非常困難。所以BAT做醫療一點優勢都沒有,因為他們要把這些數據,從各醫院、各科室搞出來也很累。相反,如果一個創業者在醫療行業耕耘很多年,也許拿起數據來比大公司更容易。 這要求創始團隊的合伙人中,必須有懂行業、有行業資源的人才。這與互聯網+一樣,一旦細分到具體行業,并不是說你百度、騰訊有資金、有流量,投入人才就什么都能做,比拼的還有行業資源和人脈。 之所以跟大家聊這個話題,是因為前一段去百度大學跟大家交流,他們提到百度人工智能在無人車和DuerOS的應用。同時又問我,人臉識別在國內安防領域的應用價值非常大。像??低曈薪?000億人民幣的市值,每年光凈利潤就有近百億。百度在AI方面是不是該考慮進軍這個領域。 我回答說千萬別,因為安防是典型的、有巨大壁壘的“行業+AI”領域。 即使百度技術好,在人臉識別率方面比??低暩咭粋€百分點(實際不一定,??当澈笥袔装偃说腁I研發團隊)。但這并不代表百度就能替代???。因為安防是“非關鍵性應用”(non-mission-critical),100個犯人我識別了95個,你比我多識別了一個做到了96個,其實沒那么重要。 而反過來,??祵Ρ劝俣扔惺裁磧瀯??首先??凳亲鰯z像頭的,用自己的硬件跑自己的算法,是很自然的事兒。就像蘋果手機,軟硬一體體驗更好。其次,??底隽诉@么多年的安防,積累了非常多的數據,人臉的數據、環境的數據……在安防領域有數據優勢。最后,??到o公安系統做了很多類似警務通、基站信息采集、視圖檔案管理等SaaS平臺的東西,以及警用云系統。我們可以認為公安系統的IT化,其中有一部分就是??低晠⑴c的。 這些東西可能不賺錢,但卻為??禈嫿吮趬?。因為底層的基礎設施都是我建的,那前端的東西就只能用我的(我可以有100個理由,說競品與我不兼容)。而且??底隽诉@么長時間,積累了大量的客戶資源,特別是政府公安局的資源,開拓這些資源非常需要時間。 這些就是所謂的行業縱深。所以即使對BAT而言,想進入“行業+AI”領域,選擇垂直賽道時,同樣要非常謹慎。 在巨大的行業壁壘面前,真不是說我的算法比你好一些,市場就是我的,只有技術優勢仍然差的很遠。 回歸 “AI+行業”和“行業+AI”,通常來講前者的行業縱深會比較淺,而后者則有巨大的行業壁壘。而行業壁壘,則是創業公司最大的護城河,也是抵擋BAT的關鍵。 第四個問題:關鍵性應用 vs 非關鍵性應用 談到人工智能領域的創業,很多人都會有個誤解,就是如果我團隊沒有個大牛的科學家,比如斯坦福、MIT的博士坐鎮,我都不好意思講在人工智能方面創業。其實這個認知是完全錯的。因為在人工智能領域,算法到底有多重要,完全取決于你要準備進入哪個行業。 根據行業和應用場景不同,我認人工智能的創業本質上有mission-critical和non-mission-critical之分。為了方便大家理解,我們簡稱為“關鍵性應用”和“非關鍵性應用”。 “關鍵性應用”要追求99.9……%后的多個9,做不到就沒法商業化。比如大家認為,99%可靠度的自動駕駛能上路嗎?肯定不能,意味著100次就出1次事故。99.9%也不行,1000次出一次事故。 千萬記住,99%和99.9%的可靠度差距并不是0.9%,而是要反過來算,差距是10倍。 也包括手術機器人,聽起來99.9%可靠度已經很高了,但意味著1000次出一次醫療事故,放在美國,醫院還不得被巨額索賠搞得破產。 所以“關鍵性應用”領域,就是一丁點兒錯都不能犯的人工智能領域,必須要有技術大牛、科學家或算法專家坐鎮。同時,這類項目研發周期都很長。 正如以色列做ADAS (高級駕駛輔助系統)解決方案的Mobileye公司,今年3月被Intel以153億美金收購。大家知道這家公司研發周期有多長嗎?Mobileye成立于1999年,到他們推出首款產品、掙到第一桶金已是2007年。長達8年的研發周期。這在互聯網創業里不可想象。包括谷歌無人車從2009年開始研發,到現在一直沒有商業化;達芬奇手術機器人從啟動研發到2000年拿到美國食品藥品管理局(FDA)的認證,花了十年時間。 “關鍵性應用”的普遍特點就是這樣,項目通常很貴,研發周期巨長,離錢非常遠,需要持續的融資能力,團隊怎樣才有持續融資?起碼要有非常好的簡歷和非常好的背景。這個是能夠持續融資的必要前提。所以大家可以看到,今天做無人駕駛的創業團隊都是高富帥。因為不是高富帥,你都熬不到產品真正商業化應用那天。 當然,如果在人工智能領域都是“關鍵性應用”,那就沒大多數創業者什么事了。實際上,人工智能領域的創業,95%都是“非關鍵性應用(none-mission-critical)”。簡單講對這些領域,AI的可靠度只要過了基礎線,高一點低一點區別不大。 最簡單的例子,現在很多公司的門禁開始用人臉識別。你今天帶個帽子,明天戴個墨鏡或口罩,識別率沒法做到99%??杉词箾]識別出來也沒問題。因為所有帶人臉識別的門禁都有地方讓你按指紋。即使指紋也刷不進去,問題也不大,公司不還有前臺嗎。 這就是“非關鍵性應用“。這類項目不追求99%后面的很多個9。 實際上,國內人工智能和機器人方向的創業,大部分領域都是“非關鍵性應用”。 當然并不是說,在這個領域算法不重要,你天天認不出來也不行,所以一定要過了基礎的可用性門檻,偶爾出現問題可以容忍?!瓣P鍵性應用”則不能容忍。 “非關鍵性應用“不追求高大上,簡單、實用、性價比高更重要,這樣的項目通常比拼綜合實力。包括: 對行業的洞察理解。要熟知行業痛點; 產品和工程化能力。光在實驗室里搞沒意義; 成本控制。不光能做出來的產品,還得便宜的做出來; 供應鏈能力。不光能出貨,還要能批量生產; 營銷能力。產品出來了,你得把東西賣出去。團隊里有沒有營銷高手,能不能搞定最好的渠道是關鍵。 所以大家在創業組團隊時,一定要想好你選擇的賽道處于哪個領域,不同的賽道對于團隊的要求是不一樣?!瓣P鍵性應用”必須有技術大牛坐鎮,“非關鍵性應用”則要求團隊更加綜合和全面。 第五個問題:技術提供商 vs 全棧服務商 現在很多人工智能創業者都是技術背景出身,創業的第一個想法通常是做技術提供商。技術提供商作為創業的敲門磚可以。但如果只定位做技術提供商,未來路會非常窄。為什么說未來只做技術提供商價值會越來越???原因有幾點: 1. 首先通用技術一定是大公司的賽道,BAT未來一定會開放免費。 人家大公司會免費提供人臉識別、語音識別、語義理解、機器翻譯這類EnablingTechnology,你還打算怎么靠API調用賺錢呢?也許現在還可賺點小錢,但很難成為一個長久的生意。 2. 依托于算法的技術壁壘會越來越低。 未來隨著基礎計算平臺和開源平臺的豐富成熟,技術方面的壁壘會越來越不明顯,整個人工智能的技術準入門檻會越降越低。就像2008年你想找個IOS開發者,很難,現在卻很容易一樣,所有技術的演進都遵循這一規律。特別隨著今天各大學的計算機專業,都紛紛開設機器學習課程,未來人才不缺,這會拉低整個行業的進入門檻。 同時隨著谷歌TensorFlow等生態系統的成熟,很多領域都會有訓練好的模型可以用來參考(出Demo會更快),創業者只要有足夠的數據來訓練參數就好了。所以未來算法的壁壘會越來越低,如果這個公司的核心競爭力只是算法,那將非常危險。 3.技術提供商如果不直接面向用戶/客戶提供整體解決方案,則非常容易被上下游碾壓: 對于技術提供商和算法類公司,如果你的技術壁壘不夠高,上游很可能直接把你的事做了。這樣的例子比比皆是,比如給??低曁峁┤四樧R別算法的公司。問題就在于,??翟谟媚闼惴ǖ臅r候,人家也有龐大的研發團隊在研究自己的算法?,F在用你是人家還沒準備好,一旦準備好立刻會把你替換掉。 即使在有一定技術門檻的行業,技術提供商的日子同樣并不好過。比如專注嵌入式的視覺處理芯片的Movidius,大疆無人機一直在用他們的芯片。但自從大疆統治了消費級無人機市場后,大疆現在也很自然地開始研發自己的芯片。 按說芯片的技術壁壘并不低,但只要行業集中度高,贏家就會選擇通吃。比如做手機的廠商,出貨量到了一個閥值,都有動力自己做芯片。像蘋果、三星、華為還有現在的小米,都選擇了自己做手機CPU。所以聯發科、高通這些技術提供商,其實是挺痛苦的。 這其實是一個產業鏈通用規律:產業鏈上的壟斷者會吃掉所有利潤,而且他們非常有動力往上游或下游擴展。拿PC產業鏈舉例,內存、硬盤、整機、顯示器……都不賺錢。錢被誰賺走了?Windows和Intel卻賺走了絕大部分利潤。 既然做純技術提供商沒有出路,那怎么辦?浩哥提出“一橫一縱”理論。前期做技術服務可以,但是不能一輩子做技術服務。 “一橫”就是指你提供的技術服務。通?!耙粰M”能服務很多行業,一定要找到1、2個,你認為最有市場機會,最適合你的垂直領域,深扎進去做“全?!保喊鸭夹g轉化為產品,然后搞定用戶賣出去,實現商業變現,再通過商業反饋更多的數據,更加夯實自己的技術。 一句話講,要做技術、產品、商業和數據四位一體的“全?!?,這就是“一縱”。 這才是健康的商業模式。 在垂直外的行業,因為沒有利益沖突,你仍可老老實實的做技術服務。這樣的話,商業上你能吃透一個垂直行業,技術上你還能通過橫向合作,形成更多的數據回路,從而夯實你的技術。這個就是“一橫一縱”理論。 那么對于技術創業公司,從“一橫”走到“一縱”,要選哪個垂直領域,取決5個關鍵因素: 市場空間夠不夠大? 做垂直領域的全棧,還是做橫向的技術提供商?取決市場空間哪個更大。找對垂直領域,即使只占一點點市場份額,也可能比做“一橫”全歸你的收益大。拿美圖公司舉例,他們有美圖秀秀、美拍、美顏相機等APP,同時還會跟很多手機廠商合作,提供相機拍攝的美顏效果,你可以理解這就是技術服務。 但研究2016財報后,大家知道美圖秀秀選的“一縱”是什么嗎?就是美圖手機。以上提到的技術服務都遠沒有垂直做美圖手機賺錢。美圖手機占了公司全部營收的93%。雖然美圖手機去年的銷量大約在74.8萬臺,僅僅只占國內手機市場全年銷量5億多臺的不足0.15%。 行業集中度如何? 做“一橫”技術提供商時,最擔心的是你的上游或下游過于集中,或者說頭部效應越明顯,對技術提供商就越不利。舉個簡單的例子,IDC時代,HP、DELL等廠商賣服務器,都是直接賣給各IT公司,大家日子過的都很滋潤。但2010年之后就很難做了,因為云計算出現了。 提供云計算的廠商就那幾個,兩只手就能數出來。而且頭部效應極其明顯,僅阿里云一家占了50%以上份額。如果你是一個技術提供商,在跟這么壟斷的行業去談判,你會發現沒有任何籌碼。所以現在就很悲催,假設我是阿里云,會讓你列出BOM成本,我就給你5%或10%的利潤,這個生意就很難做了。 在這種情況下,你當然有意愿也往上游走。但帶來的問題是什么?如果上游集中度高,說明這事的壁壘很高,你作為技術提供商想往上走,同樣很困難;如果這個上游集中度低或客戶很零散,對你是件好事。但是你也沒有太大動力往上游走,因為這個市場本來就很零散,你即使殺進去,可能只有1%的市場份額,而且使得99%的人都變成你的競爭對手了。這是個悖論。 技術是改良還是革命? 如果你的技術創新對這個垂直領域是革命性的,就越有機會走到上游。如果只是改良性的,你就老老實實在下游賺個辛苦錢算了。 越是顛覆性的東西,越有機會往上游走。因為上游越離不開你,意味著你有機會做他的事。 打個異想天開的比方,如果你能提供一個“待機一禮拜”的電池,那你就可以考慮自己做手機,你的手機只打一點:一星期不用充電,而且是全球唯一!就這一點可能就夠了,因為這個技術是革命性的。相反,如果是改良性的技術,例如你的電池待機只是比以前多了10~20%,那你還是老老實實賣電池吧。 雙方壁壘誰更高? 技術提供商的壁壘和上游客戶的壁壘哪個更高,也決定做“一縱”的成敗。拿比較火的直播平臺而言,現在都有美顏功能,例如給女孩長出個耳朵那種,這個通常都是第三方提供的技術。技術本身的壁壘并不高,很多公司都能提供,雖然效果有一些小的差異,但你沒有明顯優勢。 可是直播的壁壘相當高,這事有網絡效應,用戶越多會吸引更多的美女主播,因為能賺到更多錢,美女主播越多,也會帶來更多的用戶。同時你舍得花錢,需要很多資金來買流量以及簽約很NB的主播。所以這個事壁壘很高。你做技術提供商壁壘不高。這種情況下,雖然技術提供商只能賺個辛苦錢,但是仍然完全沒有機會往上游走。 到底跟團隊基因相符不相符? 能做得了技術服務,不代表能做垂直解決方案,做全棧,因為團隊不一定有行業經驗,這是很大的問題。亞馬遜的無人便利店Amazon Go出來之后,國內不少技術團隊也想提供類似的技術,甚至想做2C的便利店。 與他們聊完后,我都會勸他們再考慮一下,你的技術再好,對于用戶而言,他買東西的時候,會看這個便利店有人還是無人的嗎?不會,這不是優先選項。他首要考慮的還是——哪個便利店離我更近,以及我想買的東西這個便利店有沒有。 從這個意義講,這又回到了零售的本質。所以如果團隊沒有零售的基因,沒有懂零售的人,就別考慮自己開便利店的事。這時候,很多人可能會問“那我找個懂行業的高管不就行了么?”這事沒那么簡單,如果CEO不了解行業本質,其實是很難靠一個高管去彌補的。 我特別相信基因決定論,如果任何一個新的商業,BAT找個懂行業的高管就能搞定了,那中國互聯網的生意就全是BAT的了,就沒創業公司什么事了。BAT,一個做搜索,一個做電商,一個做社交。其實他們3個都把對方的事情已嘗試了一遍,最后都不成功。所以大家能做什么,不能做什么,跟這個公司的基因是高度相關的。 第六個問題:2C vs 2B 最后一個問題,簡單說一下,科技成熟都需要一定的時間。因為從任何技術普及演進的角度,幾乎都延續了先是從軍工(航天)、到政府、到企業、到B2B2C、再到2C這個規律。人工智能也一樣,目前人工智能在2C市場還不是很成熟。 簡單說機器人,在個人消費者市場,出貨量大的機器人只有4類產品:掃地機器人、無人機、STEAM教育類機器人和亞馬遜ECHO為代表的智能音箱。為什么2C市場早期的普及有一定的困難,簡單講幾個原因: 1. 產業鏈不成熟 我做一個創新的東西,成品有10個部件。每一個部件都得自己做,而且因為出貨量不大,每個部件都沒有規模效應,這就導致每個部件都很貴,那你最后做出成品一定很貴。這是非常大的問題。 2. 2C是額外花錢 這也是很重要的一個問題,2C端的用戶因為自掏腰包、額外花錢,所以對價格通常比較敏感,產品很貴就是一個很大的門檻。 3. 2C產品的用戶期待度高 用戶買了這么貴的東西,自然對產品的期待度會更高很多。大家覺得我買一個機器人回來,恨不得什么都能干:又能唱歌、又能跳舞、又能聊天、又能清潔、又能講英語。但這是不現實的,現在的技術成熟度離此還有些遠。 相對于2C端,這些問題在2B端卻不是問題。 1. 2B端對價格承受能力更高 首先,企業對價格的承受能力顯然比2C強很多。你說一個機器人2萬,2C消費者不可能買,但企業問題不大,企業對成本承受能力高。 2. 2B的核心目的是降成本 舉例工業機器人,10萬塊錢一個,聽起來很貴。但一個工業機器人替代你2個崗位。這2個崗位一年也得10萬塊錢,還不算四險一金。然后這機器人能工作4年,這一下成本只有你原來的25%,甚至不到。那么企業一算賬,覺得還是很便宜。 3. 2B可以采取人機混合模式 還有2B端的機器人應用更簡單一些。一方面大多是單任務,機器人只要做好一件事就行了,實現起來簡單。另外,很多都是以”人機混合”模式在作業。也就是以前需要10個人干活,現在我用機器人替代一半人。簡單重復的工作用機器人替代,復雜的用剩下的5個人,這就是”人機混合”模式。 舉個例子,現在國內外已有很多安保機器人,按固定路線去巡邏。你可以理解為移動的攝像頭,當然算法上肯定加入了一些識別的東西。固定繞路線巡邏,這個完全可以交給機器人來做。難的是,在巡邏的過程中,如果發現有老太太摔倒了,讓機器人扶起來,這個目前還做不到。 但這不重要,你們后臺不還有5個人么,讓他們過來就好了。所以人機混合是2B比較主流的模式,這個大幅降低了機器人普及的難度。 最后再說一點,目前大多數AI創業公司都是技術專家主導,這很容易理解,因為現在技術還有壁壘,技術專家主導起碼保證產品能做出來。 不過未來隨著技術門檻的降低,特別在“非關鍵應用”領域里,團隊的核心主導,會慢慢過渡到產品經理和行業專家為主,因為他們離用戶需求最近?!?非關鍵應用 ” 領域,懂需求比技術實現更重要。長期來看,人工智能創業和任何其他領域的創業一樣,一定是綜合實力的比拼! 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2017-10-17 00:24:00
  C114 訊 8 月 24 日消息(南山)國務院日前印發《新時期促進集成電路產業和軟件產業高質量發展的若干政策》,明確提出集成電路產業和軟件產業是信息產業的核心,是引領新一輪科技革命和產業變革的關鍵力量。文件要求我國芯片自給率從目前的 30%,在 2025 年達到 70%。   據臺媒報道,臺灣半導體產業界擔憂更多人才因此西進大陸。聯發科等企業近期不斷向臺灣地方政府呼吁“開放政策工具”,例如針對半導體研發人員,取消分紅費用化,讓公司可以用分紅配股,留住珍貴的人才,否則臺灣腦力被買完,半導體業也沒了競爭力。   臺灣半導體業人士指出,對岸來臺高薪挖角已非新聞,近期態度更加積極,不但薪水優渥、從香港支付,“連人都不用去大陸”,恐引發第三波臺灣半導體人才出走。半導體業者最近還去見了地方官員,提出建議,希望開放政策工具留住人才,積極放寬業者招募國際人才條件,“攻擊才是最佳的防守”。   就在近期,日本媒體報道中國大陸兩家半導體企業高新挖走了臺積電百余名人才。不過臺積電董事長劉德音事后予以否認。
來源:博客園
發布時間:2020-08-24 13:40:00
在實際的工作中, 數據科學家 們不僅要學會如何實用工具,還要懂得如何與同事合作。The Yhat Blog這篇文章探討了在實際的數據建模和數據處理的過程中數據科學家和 數據工程師 應該如何處理好關系順利地完成項目的問題。它引用“摩西十誡”的典故,提出了給數據處理者的五個“誡律”。我們一起來參考一下! 數據科學家和工程師的“五誡” 1.了解你的數據 好的模型依賴于好的數據。要建立真正具有生產力的模型,數據科學家需要知道他們基于創造和存儲產品的數據庫是否可靠,以及數據庫更新的頻率。這些信息在項目開始之前就應該被收集并且分享給工程團隊,以避免項目進程之中可能產生的阻礙。 在一個理想的世界里,科學家和工程師都應該提前做好應對即將發生的變化的準備(例如,多種變量類型之間的變化),使他們能夠據此共同創建,測試和部署相應的新版本。即使不能夠保證避免每一個程序中的事故,共享資源和盡早發現缺陷也可以使工程師們降低風險和預見解決可能出現問題的部分。 2.熟悉合作伙伴使用的工具 數據科學家運用的主要編程語言是R或Python,這種語言便于數據的清潔,探索和建模。而工程師,卻需要使用多種不同的工具集來構建可擴展的網絡和移動應用程序(例如,NET、Ruby on Rails、Node.js 或 JVM)。雖然期望一個人完全懂得使用這兩套工具是不切合實際的,但是跨過技術“藩籬”的限制對對方使用的語言和流程有一個基本的了解將大大有助于合作的開展。 將統計代碼手動重新編寫為另一種語言是一項費時費力又極其容易犯錯的工程,所以當出現問題的擔憂增加的時候,建立良好的溝通機制(面對面和網絡數字化的)絕對是至關重要的。 3.了解技術的局限 當數據科學家和工程師運用不同的工具包工作的時候必然會遇到技術的限制。這常常使他們發狂,因為沒有人喜歡被要求返工,或者看著自己辛勤勞作創造出來的產品不理想,甚至更糟糕,看到自己的辛勤勞動付諸東流。 一旦你清楚了模型開發和部署所需要使用的語言(見誡條2),就應該花時間研究一下使用這種語言做什么是可能的,什么是完全不能夠實現的。然后就應該設定定期的跨職能討論會的時間表,科學家和工程師雙方要經常溝通例如:你考慮在哪些方面做一些突破雙方在哪些地方可以做出讓步哪些又是技術完全實現不了的有沒有其他選擇要實施需要付出多少努力這些努力符合商業價值的考量嗎 在實際工作中,假設你是一個數據科學家正在為一個Ruby編寫的APP編寫一段使用R語言的反欺詐算法,那么你應該知道的是R的GLM功能(用于構建廣義線性模型的函數),在Ruby(或Java,對這個問題來說)中并沒有相對應的本地功能。這時候就需要大家一起來一場頭腦風暴來找尋出路啦。 4.互相尊重 在任何時候,一個數據科學家的工作總是需要大家共同的努力才能夠完成,在這個過程中充滿了產生誤解的可能。那我們的建議是什么呢就是像老話講的,己所不欲,勿施于人。 對于數據科學家來說,你要做的就是寫出便于維護和使用的高質量的代碼,積極聽取工程師關于重構模型和采取更好替代方法的建議,詢問他們怎樣才是一個現實的可實行的時間表,你還能提供哪些幫助等。 對于工程師來說,與數據科學家合作,需要明確必須的職責,并且共同商討達成一份書面的處理問題的優先次序文件,遵循一個不斷更新的和現實的路線圖,并根據項目的進程不斷檢驗、細化和落實科學的數據模型。 5.履行你的責任和義務 有人認為一個模型一旦創造出來,并且投入了實際的商業運用,無論是創造它的數據科學團隊,還是實現了它的工程師們就可以自由地著手下一個大項目,不需要再管理這個項目了。這種想法是非常危險的。事實上,這只是分析的生命周期的另一階段的開始。 因為,數據科學家和工程師建立生產過程中的監控和管理模型的計劃是非常重要的。誰將會監督模型和服務器的穩定性如何將輸入和輸出數據存儲和共享升級版本,再培訓和重新測試的路線圖是什么還要為解決可能出現的問題制作一個行動計劃。如果模型吞吐量增加怎么辦擴展需要花費多少時間和金錢由此確定共同承認的公平的前期職責劃分,相應地分配團隊成員的工作時間。 總結 數據科學家和數據工程師都在朝著同一個目標努力:運用代碼建造程序來解決實際的商業問題。不幸的是,誤解和技術效率低下常常導致人們忽略了這一目標。當我們在工作中處理和他人的關系的時候,雖然沒有萬能的神奇公式,但是這五個誡律應該可以在消除數據工程師和數據科學家之間的鴻溝上產生深遠的影響。 本文翻譯編輯者是沈浩老師門下碩士研究生趙晨 來自微信號:沈浩老師(artofdata) 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2016-08-17 13:48:00
  每經記者李星每經編輯裴健如   “BaaS(即 Battery as a Service)用戶在購車時可不購買電池,從而無需承擔電池的購置成本?!比涨?,蔚來汽車董事長李斌表示,BaaS 的推出,將大幅降低電動車的購車門檻,更好平衡購車成本與用車成本。BaaS 模式下,用戶的電動車購車成本和用車成本都將低于同級別品牌的汽油車。   圖片來源:企業供圖   8 月 20 日,蔚來電池租用服務 BaaS 正式發布。據了解,蔚來電池租用服務 BaaS 通過將電池從整車中分離出來,提供了車電分離、電池租用、可充可換可升級的服務。   據悉,BaaS 用戶可根據實際使用需求,選擇租用不同容量的電池包,按月支付服務費。根據蔚來汽車制定的 BaaS 收費標準,選擇 BaaS 模式購買蔚來汽車全系車型,售價將比整車購價少 7 萬元,而選擇租用 70kWh 的電池包,用戶需繳納每月服務費 980 元以及非服務無憂用戶另須支付每月 80 元電池保障費用。   圖片來源:企業供圖   這意味著,選擇 BaaS 的用戶,每個月要繳納的電池租用費及電池保障費至少將超 1060 元。6 年后,用戶花了原整車(含電池)的購車錢,但最后電池還不是自己的。所以,對很多人來說,蔚來的 BaaS 計劃并不劃算。   “BaaS 更多的是為那些想購買蔚來汽車,卻在短時間內資金受限的用戶提供便利?!蔽祦砥囏撠?NIO Power 業務的相關人士解釋稱,BaaS 還可以解決電動車電池貶值快及損耗等難題,為后期車輛轉手提供保障。   在李斌看來,BaaS 優勢主要集中在兩方面:一方面,在 BaaS 模式中,用戶購買的只是車架,電池的損耗和貶值與用戶毫無關系,用戶也無需擔心電池的損耗和貶值,同時電池貶值也不會對車架價值帶來影響;另一方面,BaaS 模式還將體系性解決電池衰減、電池無法升級、車輛保值率變動大等影響電動汽車普及的難題。   圖片來源:企業供圖   對于 BaaS 模式下的電池租用所需費用問題,蔚來汽車方面表示,每月 980 元的電池服務費,5 年內不會調價?!拔覀冏鰞r格定價時,考慮得比較長遠,包括車的價格、電池成本等?!崩畋蟊硎?,每個月 980 元的服務費,是充分考慮了各方面因素確定的一個長期定價,公司不會輕易調價。但在“靈活升級”業務方面將存在變量,如 70 元~100 元的價格將根據供需情況來靈活確定。   除選擇租用 70kWh 電池包外,蔚來汽車后續還將推出其他容量電池組租賃方案,BaaS 模式下的購車車主可隨意切換不同套餐。   數據顯示,截至 8 月 20 日,蔚來已獲得換電相關專利超過 1200 項,在全國范圍內已建成換電站 143 座,累計為用戶完成換電服務超過 80 萬次。   記者了解到,蔚來電池租用服務 BaaS 后續所需電池將由武漢蔚能電池資產有限公司(以下簡稱武漢蔚能)提供。   啟信寶數據顯示,武漢蔚能成立于 8 月 18 日,由蔚來汽車、寧德時代、湖北省科技投資集團有限公司和國泰君安國際控股有限公司(以下簡稱國泰君安國際)共同注資成立,注冊資本為 8 億元,上述四家股東分別出資 2 億元,各持股 25%。   事實上,武漢蔚能是基于“車電分離”模式成立的一家電池資產管理公司,BaaS 業務是其最先推出的業務模式。目前,武漢蔚能的主要作用是從蔚來購買電池,并委托蔚來為用戶提供電池租用運營服務?!白鳛殡姵刭Y產持有方,武漢蔚能是蔚來電池租用服務 BaaS 得以實現的關鍵一環?!鄙鲜?NIO Power 相關負責人表示。   值得注意的是,武漢蔚能是一家獨立存在的公司?!拔錆h蔚能本身是獨立的,管理團隊將由蔚來及其他股東推薦,不存在任何一家股東派駐的概念?!崩畋蟊硎?。   對于武漢蔚能的控制權,李斌告訴記者,蔚來汽車只會是電池資產公司的股東方之一,不會成為其控制者。未來,蔚來擁有的公司股份只會少不會多?!澳壳?,已有一些新股東會加入,正在走相關程序?!崩畋笸嘎?。   據了解,武漢蔚能并不僅限于為蔚來汽車提供服務?!拔磥?,它將為更多不同品牌電動汽車基于 BaaS 模式提供資產服務?!币晃晃祦砥噧炔咳耸扛嬖V記者。
來源:博客園
發布時間:2020-08-24 13:30:00
  據國外媒體報道,在瑞典政府決定取消自動駕駛測試項目的時間限制后,特斯拉的 Autopilot(自動輔助駕駛系統)和其他駕駛輔助套件將在瑞典進行擴展測試。   特斯拉的 Autopilot 系統一直以來都很引人注意,但它也引起了很大的爭議。在 Autopilot 系統啟動的情況下,特斯拉汽車曾發生了多起事故。   此前,該公司曾表示,它的 Autopilot 系統只是部分實現了自動化,比如使汽車保持在車道上,與前方車輛保持安全距離。它只是為了輔助司機,司機必須隨時準備干預。   據悉,特斯拉的 Autopilot 系統也在不斷改進,這要歸功于該公司的神經網絡,該網絡在該公司的半自動駕駛功能被使用時充當大腦。   去年 5 月,知情人士透露,特斯拉再次重組了 Autopilot 軟件團隊,該團隊由馬斯克親自掌管。
來源:博客園
發布時間:2020-08-24 13:18:00
  集微網報道 據 HEVC Advance 官方 8 月 17 日消息,HEVC Advance 的 HEVC/H.265 專利池中的部分專利權?在德國杜塞爾多夫地區法院提起針對 Vestel Germany GmbH (以下簡稱“Vestel”) 和 Xiaomi Technology Germany GmbH、Xiaomi Technology Netherlands B.V.、Xiaomi Technology France S.A.S. 和 Xiaomi Inc. (以下統稱“小米”)的專利訴訟,稱這幾家公司侵犯了 HEVC/H.265 數字視頻壓縮標準的必要專利。   這是小米半年之內第二次因 HEVC/H.265 專利遭遇海外訴訟。就在 7 月 30 日,據外媒消息,一家美國公司 InterDigital,Inc.(NASDAQ:IDCC)在印度對小米發起兩起專利侵權訴訟,其中一起便涉及 IDCC 三項H.265 印度專利。IDCC 挑選中印關系緊張時期在印度對小米發起訴訟,讓小米陷入被動境地,業界判斷小米有較大可能選擇和解。   與 IDCC 案相似,HEVC Advance 同樣是有備而來。在訴 Vestel 和小米之前,其剛剛贏得另一場H.265 標準必要專利訴訟,法院還在訴訟中確認 HEVC Advance 向被告提供的專利使用費費率是符合 FRAND 原則的。值得一提的是,做出上述裁定的法院就是德國杜塞爾多夫地區法院。   HEVC Advance   此次訴訟其中一方 HEVC Advance 是一家獨立的許可管理機構,以幫助企業快速有效獲得 HEVC/H.265 標準必要專利為目的。據官網消息,截至目前,已有 29 家H.265 專利許可方加入該專利池,相關專利超 13000 件,專利池合規被許可方 166 家。從專利清單來看,三星是該專利池最大的專利許可方,其次是 GEVC(GE Video Compression, LLC),華為也是該專利池中專利持有量最多的許可方之一。   而另一方,Vestel 隸屬于土耳其家庭和專業家電制造公司,在德國提供包含 HEVC/H.265 技術的電視機和機頂盒,小米則在德國提供包含 HEVC/H.265 技術的移動通訊產品。   HEVC Advance 此次針對 Vestel 和小米發起專利訴訟,可能是一石二鳥之計。一方面迫使這兩家公司成為該專利池的被許可方,另一方面也是對 Vestel 的回擊。2019 年 2 月,Vestel 在英國對 HEVC Advance 及該專利池許可方之一飛利浦提起訴訟,要求法院禁止對方在標準基本專利和許可費方面濫用支配地位的行為。HEVC Advance 和飛利浦隨即提出管轄權異議,并于 2019 年 12 月獲得管轄權異議案勝訴。   HEVC Advance 的專利權人選擇在德國杜塞爾多夫地區法院提起訴訟可能并非偶然。該法院今年 5 月剛剛在另一起H.265 專利侵權案中,做出有利于 HEVC Advance 專利許可方的判決。該案被告為 MAS Elektronik Aktiengesellschaft(簡稱“MAS”),而原告為 HEVC Advance 的專利權人 GEVC、杜比實驗室和飛利浦。杜塞爾多夫地區法院判定 MAS 產品侵犯涉訴專利,并宣布 HEVC Advance 向 MAS 提供的許可條款和特許權使用費費率是公平、合理和非歧視性的。   InterDigital   這已經是小米在年內第二次遭遇海外專利訴訟。7 月 30 日,據外媒消息,IDCC 在印度新德里的德里高等法院對小米發起專利訴訟,要求小米停止侵權并支付懲罰性賠償。除此之外,IDCC 還在進一步尋求禁令救濟。   IDCC 是美國一家數字移動和視頻技術開發商,近年來活躍于通信領域專利訴訟舞臺,已成為一家 NPE。今年 4 月,該公司剛剛結束與華為的長期訴訟。記者翻閱該公司財報發現,2012 年以來,專利收入已成為 IDCC 最主要的收入來源,占比高達 90%。在美國專利數據庫中,IDCC 所持有專利共 11658 件,但近年來發明專利申請量不足 100 件。   據報道,IDCC 在印度起訴小米前已經過數年談判,顯然其意在以訴訟促和談。眾所周知,處理專利訴訟需要耗費的時間、精力、資金等代價較大。在部分敏感時期,如 IPO 上市前、新品發布期、市場爭奪關鍵期等,專利訴訟“殺傷力”可能非常大。當前,中印關系趨于緊張,印度抵制中國制造浪潮興起,進軍印度的國產廠商多低調處事。在這一背景下,IDCC 提起針對小米的訴訟,對小米是極為不利的。業界認為,小米可能更傾向于“破財消災”,與 IDCC 和解。   而 IDCC 起訴小米所使用的專利,其中兩項正是H.265 專利。   H.265   H.265 又稱 HEVC(高效率視頻編碼技術標準),是H.264 的升級版。早在 2012 年 8 月已經被推出,2013 年 2 月,國際電聯正式批準通過 HEVC/H.265 標準。相比于上一代的H.264,H.265 壓縮效率提升一倍,對于用戶來說意味著更流暢地視頻播放、更低的延遲和更小的存儲空間。然而,直到今天市場上最流行的視頻編碼標準仍然是H.264。原因之一正是復雜而高昂的專利許可費用問題,而這也是小米屢遭H.265 專利狙擊的原因之一。   不同于H.264,只要和 MPEG LA 簽訂許可協議就可能解決 80% 以上的專利問題,H.265 相關專利池有三家,且收費標準不一。   H.265 三家專利池分別是 MPEG LA、HEVC Advance 和 Velos Media。HEVC Advance 誕生于 2015 年,由杜比、飛利浦、三菱、GE 等發起組成。按照 HEVC Advance 的費率計算,每臺電視需要支付 1.50 美元專利費、手機每臺 0.80 美元,流媒體播放器、機頂盒、游戲主機、藍光影碟機、DV 錄像機、投影儀、數字媒體存儲設備、GPS 導航儀、數碼相框等則是每臺 1.10 美元。對于部分出貨量較大的業內巨頭來說,每年僅這一項專利費用可能就超過 1 億美元。MPEG LA 則給出設備廠商每年前 10 萬臺設備免費、之后每臺收費 0.20 美元以及每年 2500 萬美元封頂的條件。   且不同專利池所包含的專利可能存在重合。畢竟有實力提前布局H.265 標準專利的企業有限,且一家企業并不限定只能加入一個專利池。如佳能、NEC 等企業既是 HEVC Advance 的專利權人,也是 MPEG LA 專利池中 HEVC 專利的許可人。   這給H.265 專利的實施帶來極大不便。Vestel 就曾在訴訟時表示,與 HEVC Advance 相比,MPEG LA 包含了更多H.265 標準必要專利,同時以低于 HEVC 的特許權費率提供許可。而且 HEVC Advance 中約 1581 個標準必要專利也在 MEPG LA 中。   今年 1 月,小米正式宣布加入 MPEG LA,彼時,小米知識產權戰略和全球業務發展副總裁 Paul Lin 表示:“像小米這樣的 HEVC 技術的重要實現者收到了加入多個 HEVC 專利池的邀請。雖然小米認為許可池方法可以非常有效,但多個專利池對技術實施者造成了有害的許可費堆積問題。因此,小米強烈鼓勵合并成一個池,為整個 HEVC 標準提供公平合理的使用費?!?   國際標準專利許可費率的最終達成,往往都會經歷大量的博弈和較量,MPEG LA HEVC 和 HEVC Advance 之間的博弈鹿死誰手尚難定論。不過,隨著H.266 標準化進程的推進,H.265 的普及繼續遭遇專利費用攔路顯然是不合時宜的。
來源:博客園
發布時間:2020-08-24 13:12:00
  新冠疫情很大程度上改變了我們的生活工作方式,而且佩戴口罩已經成為新常態。谷歌應用在近日的更新中,天氣區域的吉祥物小青蛙也佩戴上了口罩。這只吉祥物一直存在于谷歌應用的天氣區域,會根據用戶所在地區的天氣情況做各種不同的事情。   在近日的圖形更新中,這個深受用戶青睞的兩棲動物吉祥物戴上了口罩。這個變化最早是 Reddit 社區成員發現的,目前正向所有用戶推廣部署。當你在谷歌應用中搜索“Weather”(天氣)或者使用 Pixel 的“At a Glance”小部件,就能看到這個小青蛙戴上了口罩。
來源:博客園
發布時間:2020-08-25 07:58:00
摘要:在微博上收藏了一個技術貼,作者是 Savvs Tjortjoglou(Twitter:@savvas_tj)。他之前的一篇NBA投籃繪圖在內地網絡上挺火的,幾個微信公號都有推,今天看的這一個帖子原題是:How to Track NBA Player Movements in Python ,我嘗試著模擬了一遍,加了一點自己的元素,感覺非常不錯! 首先,可以進入NBA官網的stats看看,非常詳細的統計,主菜單欄里Stats中有一個SportVU Player Tracking,當然還有Team Tracking。里面的可視化呈現相當美觀。Intro里寫到:Player Tracking is the latest example of how technology and statistics are changing the way we understand the game of basketball. 大數據 的力量的確給傳統運動帶來了革興,SportVU是一個軟件,它依靠NBA賽場過道(catwalks)上安裝的6臺攝像機,追蹤賽場上每個運動員和籃球本身的移動軌跡,追蹤速度是25次/s,通過處理,攝像機收集到的數據為運動速度、運動距離、球員間距、控球等要素的分析提供了極為豐富的統計數據庫。 對于美國的運動數據統計能力感到驚訝!但強大的Python當然可以在自我理解下處理這些豐富的數據。 Part 1.引入模塊 導入的模塊大多數是比較常用的。其中的seaborn是一個統計 數據可視化 模塊,畫出的圖形很美觀,實際上在后面的操作中幾乎沒有用seaborn畫圖,還是依靠pandas、matplotlib組合。 import seaborn as sns, numpy as np, requests, pandas as pd %matplotlib inline import matplotlib.pyplot as plt from IPython.display import IFrame 因為是可視化,接下來設計畫布風格和顏色,直接參考seaborn文檔,五種風格分別是:darkgrid,whitegrid,dark,white,ticks。寫以下兩行代碼: sns.set_color_codes() sns.set_style(‘white’) 接著,用IFrame導入一個網站上的既有Demo。 IFrame(“ http://stats.nba.com/movement/#!/GameID=0041400235&GameEventID=308 “, width = 700, height = 400) IFrame可以將任何網頁導入到IPython Notebook,其他的IDE應該也有類似的嵌入工具。 是個動態小視頻,發現IFrame這么好玩,我接下來導入一個自己原來的Tableau作品,效果也是同樣好。 IFrame(“ https://public.tableau.com/profile/luochen#!/vizhome/_2861/BibleCrossReference “, width = 800, height = 1000) Part 2.獲取數據 NBA官網數據庫有API,兩個參數:evenid,gameid。后者是這個playoff game的id。用Requests來解析網頁而不是用urllib2,我感覺比較奇怪,但是之前也有用過Requests,發現它的slogan是HTTP for Humans,好大的口氣!但是操作,尤其是對API的操作較urllib2簡化了很多。 url =” http://stats.nba.com/stats/locations_getmoments/eventid=308&gameid=0041400235 ” r = requests.get(url) r.json().keys() 輕松把源網頁轉成json格式,并讀取所有鍵,共5個: [u’moments’, u’visitor’, u’gamedate’, u’gameid’, u’home’] 我們需要的數據主要是: home:主場隊員的數據 visitor:客場隊員的數據 moments:用來繪制運動軌跡的數據 所以接下來就明晰了: home = r.json()[‘home’] visitor = r.json()[‘visitor’] moments = r.json()[‘moments’] 前面兩個都print一下,結構都很明確直觀。 moments是結構最為浩大的數據,畢竟是攝像機每秒25次得到的,先看看它的長度,是700,所以擷一葉而知秋。 moments[0] 結構是這樣的,說明就添在后面了: [3,#賽季,period or quarter 1431486313010L,#時間戳unix-time in mills,轉為可讀時間大概是:05/13/2015 3:05am UTC 715.32,#距離比賽結束的時間,game clock 19.0,#距離投球結束的時間,shot clock None,#不懂,反正是空值就不必要care [[-1,-1, 43.51745, 10.76997, 1.11823],#關于球的信息,前兩個數是比賽雙方的teamid和playerid;中間兩個數是球在球場上的坐標,最后一個數是球的半徑,球越高半徑越大。 [1610612745, 1891, 43.21625, 12.9461, 0.0],#后10個列表是關于球場上10個隊員的信息。意義和第一個關于球的信息列表一致。 [1610612745, 2772, 90.84496, 7.79534, 0.0], [1610612745, 2730, 77.19964, 34.36718, 0.0], [1610612745, 2746, 46.24382, 21.14748, 0.0], [1610612745, 201935, 81.0992, 48.10742, 0.0], [1610612746, 2440, 88.12605, 11.23036, 0.0], [1610612746, 200755, 84.41011, 43.47075, 0.0], [1610612746, 101108, 46.18569, 16.49072, 0.0], [1610612746, 201599, 78.64683, 31.87798, 0.0], [1610612746, 201933, 65.89714, 25.57281, 0.0]]] 最理想的 數據分析 模型是pandas的數據框,所以為數據框的建立做準備,接下來的一個代碼段就是Python基礎。 headers =[‘team_id’,’player_id’,’x_loc’,’y_loc’,’radius’,’moment’,’game_clock’,’shot_clock’] player_moments=[] for moment in moments: for player in moment[5]: player.extend((moments.index(moment)#索引值, moment[2]#game clock, moment[3]#shot clock))#擴展列表 player_moments.append(player)#擴展空列表 player_moments[0: 11] 非常規整的列表,列表中的每個構成元素也是列表,和上面的樣式基本保持一致。接下來構建DataFrame。 df = pd.DataFrame(player_moments, columns = headers) df.head(11) 最好加上運動員名字,會方便后續分析。 players = home[‘players’] players.extend(visitor[‘players’])#所有運動員的名字 id_dict ={} for player in players: id_dict[player[‘playerid’]]=[player[‘firstname’]+””+ player[‘lastname’], player[‘jersey’]] id_dict 是一個規整的字典,內部的值是列表。 用map方法來在原來的df中添加一列play_name列和player_jersey列,根據player_id來把name和jersey對應在正確的位置。寫完這一段代碼后, 我覺得這里的map方法和Excel中的VLOOKUP十分相似,可見數據分析的內核是相通的 。 df[‘player_name’]= df.player_id.map(lambda x: id_dict[x][0]) df[‘player_jersey’]= df.player_id.map(lambda x: id_dict[x][1]) df.head(11) Part 3.繪制 可以選擇任何一位運動員來繪制他的對應軌跡,這里選擇James Harden,雖然我完全不看球賽,也不知道他是誰,我是根據原案例選的。對于背景圖,可以自己用matplotlib繪制,一筆一筆的,非常困難。所以我們用一張上面Demo的底圖,轉化為PNG格式就行。這一工作主要是考察matplotlib.pyplot的操作能力。 harden = df[df[‘player_name’]==’James Harden’]#選擇James Harden這一行的數據 court = plt.imread(“圖像地址”) plt.figure(figsize =(15, 11.5)) plt.scatter(harden.x_loc, harden.y_loc, c = harden.game_clock, cmap = plt.cm.Blues, s = 1000, zorder = 1) #用散點圖繪制軌跡;cmap = plt.cm.Blues,用colormap來設置隨著game_clock變動而發生的軌跡顏色變化,越接近結束時間顏色越淡。 #zorder = 0 設定Harden運動軌跡下的賽場線 cbar= plt.colorbar(orientation =’horizontal’)#圖例橫向擺放 cbar.ax.invert_xaxis() plt.imshow(court, zorder = 0, extent =[0, 94, 50, 0]) #原圖中的原點(0, 0)在左上角,所以我在本圖中繼續按照這個標準設置原點,(0, 94)為x軸的范圍,(50, 0)為y軸的范圍。 在第一部分Demo的演示中,13號Harden一度出界,所以需要擴展x軸的范圍。 plt.xlim(0, 101) plt.show() Part 4.歐幾里得距離計算并繪圖 根據連續點的坐標來計算Euclidean距離。 scipy.spatial.distance中可以直接計算歐氏距離,但是這里用numpy模塊可以寫出計算過程。 def travel_dist(player_loc): diff = np.diff(player_loc, axis = 0) dist = np.sqrt((diff ** 2).sum(axis = 1)) return dist.sum() dist = travel_dist(harden[[‘x_loc’,’y_loc’]]) #顯然連續點需要傳遞坐標點的x,y值,而diff正是計算了前后兩個點之間的距離。 可以用pandas中的groupby與apply來計算每一個運動員的移動距離。 player_travel_dist = df.groupby(‘player_name’)[[‘x_loc’,’y_loc’]].apply(travel_dist) player_travel_dist 轉化為數據框,并直接用pandas內置方法畫圖,由于距離可能會比較長,選擇條形圖應該比選擇柱形圖更適合展現。 df2 = pd.DataFrame(player_travel_dist) df2.plot(kind =’barh’, style =’g’) 最后可以看出,除了籃球本身的移動距離外,James Harden的移動距離最長。 寫到這里,還有很多可以繼續深入分析的內容。 作者: Lyndon 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2016-03-17 23:08:00
摘要:Awesome Python ,這又是一個 Awesome XXX 系列的資源整理,由 vinta 發起和維護。內容包括:Web框架、網絡爬蟲、網絡內容提取、模板引擎、數據庫、 數據可視化 、圖片處理、文本處理、 自然語言處理 、 機器學習 、日志、代碼分析等。 代碼下載地址: https://github.com/vinta/awesome-python 受 awesome-php 的啟發,整理了 Python 框架、類庫和工具列表。 環境管理 管理 Python 版本和環境的工具 p – 非常簡單的交互式 python 版本管理工具。 pyenv – 簡單的 Python 版本管理工具。 Vex – 可以在虛擬環境中執行命令。 virtualenv – 創建獨立 Python 環境的工具。 virtualenvwrapper – virtualenv 的一組擴展。 包管理 管理包和依賴的工具。 pip – Python 包和依賴關系管理工具。 pip-tools – 保證 Python 包依賴關系更新的一組工具。 conda – 跨平臺,Python 二進制包管理工具。 Curdling – 管理 Python 包的命令行工具。 wheel – Python 分發的新標準,意在取代 eggs。 包倉庫 本地 PyPI 倉庫服務和代理。 warehouse – 下一代 PyPI。 Warehouse bandersnatch – PyPA 提供的 PyPI 鏡像工具。 devpi – PyPI 服務和打包/測試/分發工具。 localshop – 本地 PyPI 服務(自定義包并且自動對 PyPI 鏡像)。 分發 打包為可執行文件以便分發。 PyInstaller – 將 Python 程序轉換成獨立的執行文件(跨平臺)。 dh-virtualenv – 構建并將 virtualenv 虛擬環境作為一個 Debian 包來發布。 Nuitka – 將腳本、模塊、包編譯成可執行文件或擴展模塊。 py2app – 將 Python 腳本變為獨立軟件包(Mac OS X)。 py2exe – 將 Python 腳本變為獨立軟件包(Windows)。 pynsist – 一個用來創建 Windows 安裝程序的工具,可以在安裝程序中打包 Python本身。 構建工具 將源碼編譯成軟件。 buildout – 一個構建系統,從多個組件來創建,組裝和部署應用。 BitBake – 針對嵌入式 Linux 的類似 make 的構建工具。 fabricate – 對任何語言自動找到依賴關系的構建工具。 PlatformIO – 多平臺命令行構建工具。 PyBuilder – 純 Python 實現的持續化構建工具。 SCons – 軟件構建工具。 交互式解析器 交互式 Python 解析器。 IPython – 功能豐富的工具,非常有效的使用交互式 Python。 bpython – 界面豐富的 Python 解析器。 ptpython – 高級交互式Python解析器, 構建于 python-prompt-toolkit 之上。 文件 文件管理和 MIME(多用途的網際郵件擴充協議)類型檢測。 imghdr – (Python 標準庫)檢測圖片類型。 mimetypes – (Python 標準庫)將文件名映射為 MIME 類型。 path.py – 對 os.path 進行封裝的模塊。 pathlib – (Python3.4+ 標準庫)跨平臺的、面向對象的路徑操作庫。 python-magic – 文件類型檢測的第三方庫 libmagic 的 Python 接口。 Unipath – 用面向對象的方式操作文件和目錄 watchdog – 管理文件系統事件的 API 和 shell 工具 日期和時間 操作日期和時間的類庫。 arrow – 更好的 Python 日期時間操作類庫。 Chronyk – Python 3 的類庫,用于解析手寫格式的時間和日期。 dateutil – Python datetime 模塊的擴展。 delorean – 解決 Python 中有關日期處理的棘手問題的庫。 moment – 一個用來處理時間和日期的Python庫。靈感來自于Moment.js。 PyTime – 一個簡單易用的Python模塊,用于通過字符串來操作日期/時間。 pytz – 現代以及歷史版本的世界時區定義。將時區數據庫引入Python。 when.py – 提供用戶友好的函數來幫助用戶進行常用的日期和時間操作。 文本處理 用于解析和操作文本的庫。 通用 chardet – 字符編碼檢測器,兼容 Python2 和 Python3。 difflib – (Python 標準庫)幫助我們進行差異化比較。 ftfy – 讓Unicode文本更完整更連貫。 fuzzywuzzy – 模糊字符串匹配。 Levenshtein – 快速計算編輯距離以及字符串的相似度。 pangu.py – 在中日韓語字符和數字字母之間添加空格。 pyfiglet -figlet 的 Python實現。 shortuuid – 一個生成器庫,用以生成簡潔的,明白的,URL 安全的 UUID。 unidecode – Unicode 文本的 ASCII 轉換形式 。 uniout – 打印可讀的字符,而不是轉義的字符串。 xpinyin – 一個用于把漢字轉換為拼音的庫。 Slug化 awesome-slugify – 一個 Python slug 化庫,可以保持 Unicode。 python-slugify – Python slug 化庫,可以把 unicode 轉化為 ASCII。 unicode-slugify – 一個 slug 工具,可以生成 unicode slugs ,需要依賴 Django 。 解析器 phonenumbers – 解析,格式化,儲存,驗證電話號碼。 PLY – lex 和 yacc 解析工具的 Python 實現。 Pygments – 通用語法高亮工具。 pyparsing – 生成通用解析器的框架。 python-nameparser – 把一個人名分解為幾個獨立的部分。 python-user-agents – 瀏覽器 user agent 解析器。 sqlparse – 一個無驗證的 SQL 解析器。 特殊文本格式處理 一些用來解析和操作特殊文本格式的庫。 通用 tablib – 一個用來處理中表格數據的模塊。 Office Marmir – 把輸入的Python 數據結構轉換為電子表單。 openpyxl – 一個用來讀寫 Excel 2010 xlsx/xlsm/xltx/xltm 文件的庫。 python-docx – 讀取,查詢以及修改 Microsoft Word 2007/2008 docx 文件。 unoconv – 在 LibreOffice/OpenOffice 支持的任意文件格式之間進行轉換。 XlsxWriter – 一個用于創建 Excel .xlsx 文件的 Python 模塊。 xlwings – 一個使得在 Excel 中方便調用 Python 的庫(反之亦然),基于 BSD 協議。 xlwt / xlrd – 讀寫 Excel 文件的數據和格式信息。 relatorio – 模板化OpenDocument 文件。 PDF PDFMiner – 一個用于從PDF文檔中抽取信息的工具。 PyPDF2 – 一個可以分割,合并和轉換 PDF 頁面的庫。 ReportLab – 快速創建富文本 PDF 文檔。 Markdown Mistune – 快速并且功能齊全的純 Python 實現的 Markdown 解析器。 Python-Markdown – John Gruber’s Markdown 的 Python 版實現。 YAML PyYAML – Python 版本的 YAML 解析器。 CSV csvkit – 用于轉換和操作 CSV 的工具。 Archive unp – 一個用來方便解包歸檔文件的命令行工具。 自然語言處理 用來處理人類語言的庫。 NLTK – 一個先進的平臺,用以構建處理人類語言數據的 Python 程序。 jieba – 中文分詞工具。 langid.py – 獨立的語言識別系統。 Pattern – Python 網絡信息挖掘模塊。 SnowNLP – 一個用來處理中文文本的庫。 TextBlob – 為進行普通自然語言處理任務提供一致的 API。 TextGrocery – 一簡單高效的短文本分類工具,基于 LibLinear 和 Jieba。 文檔 用以生成項目文檔的庫。 Sphinx – Python 文檔生成器。 awesome-sphinxdoc MkDocs – 對 Markdown 友好的文檔生成器。 pdoc – 一個可以替換Epydoc 的庫,可以自動生成 Python 庫的 API 文檔。 Pycco – 文學編程(literate-programming)風格的文檔生成器。 配置 用來保存和解析配置的庫。 config – logging 模塊作者寫的分級配置模塊。 ConfigObj – INI 文件解析器,帶驗證功能。 ConfigParser – (Python 標準庫) INI 文件解析器。 profig – 通過多種格式進行配置,具有數值轉換功能。 python-decouple – 將設置和代碼完全隔離。 命令行工具 用于創建命令行程序的庫。 命令行程序開發 cement – Python 的命令行程序框架。 click – 一個通過組合的方式來創建精美命令行界面的包。 cliff – 一個用于創建命令行程序的框架,可以創建具有多層命令的命令行程序。 clint – Python 命令行程序工具。 colorama – 跨平臺彩色終端文本。 docopt – Python 風格的命令行參數解析器。 Gooey – 一條命令,將命令行程序變成一個 GUI 程序。 python-prompt-toolkit – 一個用于構建強大的交互式命令行程序的庫。 生產力工具 aws-cli – Amazon Web Services 的通用命令行界面。 bashplotlib – 在終端中進行基本繪圖。 caniusepython3 – 判斷是哪個項目妨礙你你移植到 Python 3。 cookiecutter – 從 cookiecutters(項目模板)創建項目的一個命令行工具。 doitlive – 一個用來在終端中進行現場演示的工具。 howdoi – 通過命令行獲取即時的編程問題解答。 httpie – 一個命令行HTTP 客戶端,cURL 的替代品,易用性更好。 PathPicker – 從bash輸出中選出文件。 percol – 向UNIX shell 傳統管道概念中加入交互式選擇功能。 SAWS – 一個加強版的 AWS 命令行。 thefuck – 修正你之前的命令行指令。 mycli – 一個 MySQL 命令行客戶端,具有自動補全和語法高亮功能。 pgcli – Postgres 命令行工具,具有自動補全和語法高亮功能。 下載器 用來進行下載的庫. s3cmd – 一個用來管理Amazon S3 和 CloudFront 的命令行工具。 s4cmd – 超級 S3 命令行工具,性能更加強勁。 you-get – 一個 YouTube/Youku/Niconico 視頻下載器,使用 Python3 編寫。 youtube-dl – 一個小巧的命令行程序,用來下載 YouTube 視頻。 圖像處理 用來操作圖像的庫. pillow – Pillow 是一個更加易用版的 PIL 。 hmap – 圖像直方圖映射。 imgSeek – 一個使用視覺相似性搜索一組圖片集合的項目。 nude.py – 裸體檢測。 pyBarcode – 不借助 PIL 庫在 Python 程序中生成條形碼。 pygram – 類似 Instagram 的圖像濾鏡。 python-qrcode – 一個純 Python 實現的二維碼生成器。 Quads – 基于四叉樹的計算機藝術。 scikit-image – 一個用于(科學)圖像處理的 Python 庫。 thumbor – 一個小型圖像服務,具有剪裁,尺寸重設和翻轉功能。 wand – MagickWand 的Python 綁定。MagickWand 是 ImageMagick的 C API 。 OCR 光學字符識別庫。 pyocr – Tesseract 和 Cuneiform 的一個封裝(wrapper)。 pytesseract – Google Tesseract OCR 的另一個封裝(wrapper)。 python-tesseract – Google Tesseract OCR 的一個包裝類。 音頻 用來操作音頻的庫 audiolazy -Python 的數字信號處理包。 audioread – 交叉庫 (GStreamer + Core Audio + MAD + FFmpeg) 音頻解碼。 beets – 一個音樂庫管理工具及 MusicBrainz 標簽添加工具 dejavu – 音頻指紋提取和識別 django-elastic-transcoder – Django + Amazon Elastic Transcoder 。 eyeD3 – 一個用來操作音頻文件的工具,具體來講就是包含 ID3 元信息的 MP3 文件。 id3reader – 一個用來讀取 MP3 元數據的 Python 模塊。 m3u8 – 一個用來解析 m3u8 文件的模塊。 mutagen – 一個用來處理音頻元數據的 Python 模塊。 pydub – 通過簡單、簡潔的高層接口來操作音頻文件。 pyechonest – Echo Nest API 的 Python 客戶端 talkbox – 一個用來處理演講/信號的 Python 庫 TimeSide – 開源 web 音頻處理框架。 tinytag – 一個用來讀取MP3, OGG, FLAC 以及 Wave 文件音樂元數據的庫。 mingus – 一個高級音樂理論和曲譜包,支持 MIDI 文件和回放功能。 Video 用來操作視頻和GIF的庫。 moviepy – 一個用來進行基于腳本的視頻編輯模塊,適用于多種格式,包括動圖 GIFs。 scikit-video – SciPy 視頻處理常用程序。 地理位置 地理編碼地址以及用來處理經緯度的庫。 GeoDjango – 世界級地理圖形 web 框架。 GeoIP – MaxMind GeoIP Legacy 數據庫的 Python API。 geojson – GeoJSON 的 Python 綁定及工具。 geopy – Python 地址編碼工具箱。 pygeoip – 純 Python GeoIP API。 django-countries – 一個 Django 應用程序,提供用于表格的國家選擇功能,國旗圖標靜態文件以及模型中的國家字段。 HTTP 使用HTTP的庫。 requests – 人性化的HTTP請求庫。 grequests – requests 庫 + gevent ,用于異步 HTTP 請求. httplib2 – 全面的 HTTP 客戶端庫。 treq – 類似 requests 的Python API 構建于 Twisted HTTP 客戶端之上。 urllib3 – 一個具有線程安全連接池,支持文件 post,清晰友好的 HTTP 庫。 數據庫 Python實現的數據庫。 pickleDB – 一個簡單,輕量級鍵值儲存數據庫。 PipelineDB – 流式 SQL 數據庫。 TinyDB – 一個微型的,面向文檔型數據庫。 ZODB – 一個 Python 原生對象數據庫。一個鍵值和對象圖數據庫。 數據庫驅動 用來連接和操作數據庫的庫。 MySQL – awesome-mysql 系列 mysql-python – Python 的 MySQL 數據庫連接器。 mysqlclient – mysql-python 分支,支持 Python 3。 oursql – 一個更好的 MySQL 連接器,支持原生預編譯指令和 BLOBs. PyMySQL – 純 Python MySQL 驅動,兼容 mysql-python。 PostgreSQL psycopg2 – Python 中最流行的 PostgreSQL 適配器。 queries – psycopg2 庫的封裝,用來和 PostgreSQL 進行交互。 txpostgres – 基于 Twisted 的異步 PostgreSQL 驅動。 其他關系型數據庫 apsw – 另一個 Python SQLite封裝。 dataset – 在數據庫中存儲Python字典 – 可以協同SQLite,MySQL,和 PostgreSQL工作。 pymssql – 一個簡單的Microsoft SQL Server數據庫接口。 NoSQL 數據庫 cassandra-python-driver – Cassandra 的 Python 驅動。 HappyBase – 一個為 Apache HBase 設計的,對開發者友好的庫。 Plyvel – 一個快速且功能豐富的 LevelDB 的 Python 接口。 py2neo – Neo4j restful 接口的Python 封裝客戶端。 pycassa – Cassandra 的 Python Thrift 驅動。 PyMongo – MongoDB 的官方 Python 客戶端。 redis-py – Redis 的 Python 客戶端。 telephus – 基于 Twisted 的 Cassandra 客戶端。 txRedis – 基于 Twisted 的 Redis 客戶端。 ORM 實現對象關系映射或數據映射技術的庫。 關系型數據庫 Django Models – Django 的一部分。 SQLAlchemy – Python SQL 工具以及對象關系映射工具。 awesome-sqlalchemy 系列 Peewee – 一個小巧,富有表達力的 ORM。 PonyORM – 提供面向生成器的 SQL 接口的 ORM。 python-sql – 編寫 Python 風格的 SQL 查詢。 NoSQL 數據庫 django-mongodb-engine – Django MongoDB 后端。 PynamoDB – Amazon DynamoDB 的一個 Python 風格接口。 flywheel – Amazon DynamoDB 的對象映射工具。 MongoEngine – 一個Python 對象文檔映射工具,用于 MongoDB。 hot-redis – 為 Redis 提供 Python 豐富的數據類型。 redisco – 一個 Python 庫,提供可以持續存在在 Redis 中的簡單模型和容器。 其他 butterdb – Google Drive 電子表格的 Python ORM。 Web 框架 全棧 web 框架。 Django – Python 界最流行的 web 框架。 awesome-django 系列 Flask – 一個 Python 微型框架。 awesome-flask 系列 Pyramid – 一個小巧,快速,接地氣的開源Python web 框架。 awesome-pyramid 系列 Bottle – 一個快速小巧,輕量級的 WSGI 微型 web 框架。 CherryPy – 一個極簡的 Python web 框架,服從 HTTP/1.1 協議且具有WSGI 線程池。 TurboGears – 一個可以擴展為全棧解決方案的微型框架。 web.py – 一個 Python 的 web 框架,既簡單,又強大。 web2py – 一個全棧 web 框架和平臺,專注于簡單易用。 Tornado – 一個web 框架和異步網絡庫。 權限 允許或拒絕用戶訪問數據或功能的庫。 Carteblanche – Module to align code with thoughts of users and designers. Also magically handles navigation and permissions. django-guardian – Django 1.2+ 實現了單個對象權限。 django-rules – 一個小巧但是強大的應用,提供對象級別的權限管理,且不需要使用數據庫。 CMS 內容管理系統 django-cms – 一個開源的,企業級 CMS,基于 Django。 djedi-cms – 一個輕量級但卻非常強大的 Django CMS ,考慮到了插件,內聯編輯以及性能。 FeinCMS – 基于 Django 構建的最先進的內容管理系統之一。 Kotti – 一個高級的,Python 范的 web 應用框架,基于 Pyramid 構建。 Mezzanine – 一個強大的,持續的,靈活的內容管理平臺。 Opps – 一個為雜志,報紙網站以及大流量門戶網站設計的 CMS 平臺,基于 Django。 Plone – 一個構建于開源應用服務器 Zope 之上的 CMS。 Quokka – 靈活,可擴展的小型 CMS,基于 Flask 和 MongoDB。 Wagtail – 一個 Django 內容管理系統。 Widgy – 最新的 CMS 框架,基于 Django。 電子商務 用于電子商務以及支付的框架和庫。 django-oscar – 一個用于 Django 的開源的電子商務框架。 django-shop – 一個基于 Django 的店鋪系統。 Cartridge – 一個基于 Mezzanine 構建的購物車應用。 shoop – 一個基于 Django 的開源電子商務平臺。 alipay – 非官方的 Python 支付寶 API。 merchant – 一個可以接收來自多種支付平臺支付的 Django 應用。 money – 貨幣類庫with optional CLDR-backed locale-aware formatting and an extensible currency exchange solution. python-currencies – 顯示貨幣格式以及它的數值。 RESTful API 用來開發RESTful APIs的庫 Django django-rest-framework – 一個強大靈活的工具,用來構建 web API。 django-tastypie – 為Django 應用開發API。 django-formapi – 為 Django 的表單驗證,創建 JSON APIs 。 Flask flask-api – 為 flask 開發的,可瀏覽 Web APIs 。 flask-restful – 為 flask 快速創建REST APIs 。 flask-restless – 為 SQLAlchemy 定義的數據庫模型創建 RESTful APIs 。 flask-api-utils – 為 Flask 處理 API 表示和驗證。 eve – REST API 框架,由 Flask, MongoDB 等驅動。 Pyramid cornice – 一個Pyramid 的 REST 框架 。 與框架無關的 falcon – 一個用來建立云 API 和 web app 后端的噶性能框架。 sandman – 為現存的數據庫驅動系統自動創建 REST APIs 。 restless – 框架無關的 REST 框架 ,基于從 Tastypie 學到的知識。 ripozo – 快速創建 REST/HATEOAS/Hypermedia APIs。 驗證 實現驗證方案的庫。 OAuth Authomatic – 簡單但是強大的框架,身份驗證/授權客戶端。 django-allauth – Django 的驗證應用。 django-oauth-toolkit – 為 Django 用戶準備的 OAuth2。 django-oauth2-provider – 為 Django 應用提供 OAuth2 接入。 Flask-OAuthlib – OAuth 1.0/a, 2.0 客戶端實現,供 Flask 使用。 OAuthLib – 一個 OAuth 請求-簽名邏輯通用、 完整的實現。 python-oauth2 – 一個完全測試的抽象接口。用來創建 OAuth 客戶端和服務端。 python-social-auth – 一個設置簡單的社會化驗證方式。 rauth – OAuth 1.0/a, 2.0, 和 Ofly 的 Python 庫。 sanction – 一個超級簡單的OAuth2 客戶端實現。 其他 jose – JavaScript 對象簽名和加密草案的實現。 PyJWT – JSON Web 令牌草案 01。 python-jws – JSON Web 簽名草案 02 的實現。 python-jwt – 一個用來生成和驗證 JSON Web 令牌的模塊。 模板引擎 模板生成和詞法解析的庫和工具。 Jinja2 – 一個現代的,對設計師友好的模板引擎。 Chameleon – 一個 HTML/XML 模板引擎。 模仿了 ZPT(Zope Page Templates), 進行了速度上的優化。 Genshi – Python 模板工具,用以生成 web 感知的結果。 Mako – Python 平臺的超高速輕量級模板。 Queue 處理事件以及任務隊列的庫。 celery – 一個異步任務隊列/作業隊列,基于分布式消息傳遞。 huey – 小型多線程任務隊列。 mrq – Mr. Queue -一個 Python 的分布式 worker 任務隊列, 使用 Redis 和 gevent。 rq – 簡單的 Python 作業隊列。 simpleq – 一個簡單的,可無限擴張的,基于亞馬遜 SQS 的隊列。 搜索 對數據進行索引和執行搜索查詢的庫和軟件。 django-haystack – Django 模塊化搜索。 elasticsearch-py – Elasticsearch 的官方底層 Python 客戶端。 elasticsearch-dsl-py -Elasticsearch 的官方高級 Python 客戶端。 solrpy – solr 的 Python 客戶端。 Whoosh – 一個快速的純 Python 搜索引擎庫。 動態消息 用來創建用戶活動的庫。 django-activity-stream – 從你的站點行為中生成通用活動信息流。 Stream-Framework – 使用 Cassandra 和 Redis 創建動態消息和通知系統。 資源管理 管理、壓縮、縮小網站資源的工具。 django-compressor – 將鏈接和內聯的 JavaScript 或 CSS 壓縮到一個單獨的緩存文件中。 django-storages – 一個針對 Django 的自定義存儲后端的工具集合。 fanstatic – 打包、優化,并且把靜態文件依賴作為 Python 的包來提供。 File Conveyor – 一個后臺駐留的程序,用來發現和同步文件到 CDNs, S3 和 FTP。 Flask-Assets – 幫你將 web 資源整合到你的 Flask app 中。 jinja-assets-compressor – 一個 Jinja 擴展,用來編譯和壓縮你的資源。 webassets – 為你的靜態資源打包、優化和管理生成獨一無二的緩存 URL。 緩存 緩存數據的庫。 Beaker – 一個緩存和會話庫,可以用在 web 應用和獨立 Python腳本和應用上。 django-cache-machine – Django 模型的自動緩存和失效。 django-cacheops – 具有自動顆?;录寗邮Чδ艿?ORM。 django-viewlet – 渲染模板,同時具有額外的緩存控制功能。 dogpile.cache – dogpile.cache 是 Beaker 的下一代替代品,由同一作者開發。 HermesCache – Python 緩存庫,具有基于標簽的失效和 dogpile effect 保護功能。 johnny-cache – django應用緩存框架。 pylibmc – libmemcached 接口的 Python 封裝。 電子郵件 用來發送和解析電子郵件的庫。 django-celery-ses – 帶有 AWS SES 和 Celery 的 Django email 后端。 envelopes – 供人類使用的電子郵件庫。 flanker – 一個 email 地址和 Mime 解析庫。 imbox – Python IMAP 庫 inbox.py – Python SMTP 服務器。 inbox – 一個開源電子郵件工具箱。 lamson – Python 風格的 SMTP 應用服務器。 mailjet – Mailjet API 實現,用來提供批量發送郵件,統計等功能。 marrow.mailer – 高性能可擴展郵件分發框架。 modoboa – 一個郵件托管和管理平臺,具有現代的、簡約的 Web UI。 pyzmail – 創建,發送和解析電子郵件。 Talon – Mailgun 庫,用來抽取信息和簽名。 國際化 用來進行國際化的庫。 Babel – 一個Python 的國際化庫。 Korean – 一個韓語詞態庫。 URL處理 解析URLs的庫 furl – 一個讓處理 URL 更簡單小型 Python 庫。 purl – 一個簡單的,不可變的URL類,具有簡潔的 API 來進行詢問和處理。 pyshorteners – 一個純 Python URL 縮短庫。 short_url – 生成短小 URL 和類似 bit.ly 短鏈的Python 實現。 webargs – 一個解析 HTTP 請求參數的庫,內置對流行 web 框架的支持,包括 Flask, Django, Bottle, Tornado和 Pyramid。 HTML處理 處理 HTML和XML的庫。 BeautifulSoup – 以 Python 風格的方式來對 HTML 或 XML 進行迭代,搜索和修改。 bleach – 一個基于白名單的 HTML 清理和文本鏈接庫。 cssutils – 一個 Python 的 CSS 庫。 html5lib – 一個兼容標準的 HTML 文檔和片段解析及序列化庫。 lxml – 一個非??焖?,簡單易用,功能齊全的庫,用來處理 HTML 和 XML。 MarkupSafe – 為Python 實現 XML/HTML/XHTML 標記安全字符串。 pyquery – 一個解析 HTML 的庫,類似 jQuery。 untangle – 將XML文檔轉換為Python對象,使其可以方便的訪問。 xhtml2pdf – HTML/CSS 轉 PDF 工具。 xmltodict – 像處理 JSON 一樣處理 XML。 爬取網絡站點的庫 Scrapy – 一個快速高級的屏幕爬取及網頁采集框架。 cola – 一個分布式爬蟲框架。 Demiurge – 基于PyQuery 的爬蟲微型框架。 feedparser – 通用 feed 解析器。 Grab – 站點爬取框架。 MechanicalSoup – 用于自動和網絡站點交互的 Python 庫。 portia – Scrapy 可視化爬取。 pyspider – 一個強大的爬蟲系統。 RoboBrowser – 一個簡單的,Python 風格的庫,用來瀏覽網站,而不需要一個獨立安裝的瀏覽器。 網頁內容提取 用于進行網頁內容提取的庫。 Haul – 一個可以擴展的圖像爬取工具。 html2text – 將 HTML 轉換為 Markdown 格式文本 lassie – 人性化的網頁內容檢索庫。 micawber -一個小型網頁內容提取庫,用來從 URLs 提取富內容。 newspaper – 使用 Python 進行新聞提取,文章提取以及內容策展。 opengraph – 一個用來解析開放內容協議(Open Graph Protocol)的 Python模塊。 python-goose – HTML內容/文章提取器。 python-readability – arc90 公司 readability 工具的 Python 高速端口 sanitize – 為雜亂的數據世界帶來調理性。 sumy – 一個為文本文件和 HTML 頁面進行自動摘要的模塊。 textract – 從任何格式的文檔中提取文本,Word,PowerPoint,PDFs 等等。 表單 進行表單操作的庫。 Deform – Python HTML 表單生成庫,受到了 formish 表單生成庫的啟發。 django-bootstrap3 – 集成了 Bootstrap 3 的 Django。 django-crispy-forms – 一個 Django 應用,他可以讓你以一種非常優雅且 DRY(Don’t repeat yourself) 的方式來創建美觀的表單。 django-remote-forms – 一個平臺獨立的 Django 表單序列化工具。 WTForms – 一個靈活的表單驗證和呈現庫。 WTForms-JSON – 一個 WTForms 擴展,用來處理 JSON 數據。 數據驗證 數據驗證庫。多用于表單驗證。 Cerberus – A mappings-validator with a variety of rules, normalization-features and simple customization that uses a pythonic schema-definition. colander – 一個用于對從 XML, JSON,HTML 表單獲取的數據或其他同樣簡單的序列化數據進行驗證和反序列化的系統。 kmatch – 一種用于匹配/驗證/篩選 Python 字典的語言。 schema -一個用于對 Python 數據結構進行驗證的庫。 Schematics – 數據結構驗證。 valideer – 輕量級可擴展的數據驗證和適配庫。 voluptuous – 一個 Python 數據驗證庫。主要是為了驗證傳入 Python的 JSON,YAML 等數據。 反垃圾技術 幫助你和電子垃圾進行戰斗的庫。 django-simple-captcha – 一個簡單、高度可定制的Django 應用,可以為任何Django表單添加驗證碼。 django-simple-spam-blocker – 一個用于Django的簡單的電子垃圾屏蔽工具。 標記 用來進行標記的庫。 django-taggit – 簡單的 Django 標記工具。 管理面板 管理界面庫。 Ajenti – 一個你的服務器值得擁有的管理面板。 django-suit – Django 管理界面的一個替代品 (僅對于非商業用途是免費的)。 django-xadmin – Django admin 的一個替代品,具有很多不錯的功能。 flask-admin – 一個用于 Flask 的簡單可擴展的管理界面框架。 flower – 一個對 Celery 集群進行實時監控和提供 web 管理界面的工具。 Grappelli – Django 管理界面的一個漂亮的皮膚。 Wooey – 一個 Django 應用,可以為 Python 腳本創建 web 用戶界面。 靜態站點生成器 靜態站點生成器是一個軟件,它把文本和模板作為輸入,然后輸出HTML文件。 Pelican – 使用 Markdown 或 ReST 來處理內容, Jinja 2 來制作主題。支持 DVCS, Disqus.。AGPL 許可。 Cactus – 為設計師設計的靜態站點生成器。 Hyde – 基于 Jinja2 的靜態站點生成器。 Nikola – 一個靜態網站和博客生成器。 Tinkerer – Tinkerer 是一個博客引擎/靜態站點生成器,由Sphinx驅動。 Lektor – 一個簡單易用的靜態 CMS 和博客引擎。 進程 操作系統進程啟動及通信庫。 envoy – 比 Python subprocess 模塊更人性化。 sarge – 另一 種 subprocess 模塊的封裝。 sh – 一個完備的 subprocess 替代庫。 并發和并行 用以進行并發和并行操作的庫。 multiprocessing – (Python 標準庫) 基于進程的“線程”接口。 threading – (Python 標準庫)更高層的線程接口。 eventlet – 支持 WSGI 的異步框架。 gevent – 一個基于協程的 Python 網絡庫,使用 greenlet 。 Tomorrow -用于產生異步代碼的神奇的裝飾器語法實現。 網絡 用于網絡編程的庫。 asyncio – (Python 標準庫) 異步 I/O, 事件循環, 協程以及任務。 Twisted – 一個事件驅動的網絡引擎。 pulsar – 事件驅動的并發框架。 diesel – 基于Greenlet 的事件 I/O 框架。 pyzmq – 一個 ZeroMQ 消息庫的 Python 封裝。 txZMQ – 基于 Twisted 的 ZeroMQ 消息庫的 Python 封裝。 WebSocket 幫助使用WebSocket的庫。 AutobahnPython – 給 Python 、使用的 WebSocket & WAMP 基于 Twisted 和 asyncio 。 Crossbar – 開源統一應用路由(Websocket & WAMP for Python on Autobahn). django-socketio – 給 Django 用的 WebSockets。 WebSocket-for-Python – 為Python2/3 以及 PyPy 編寫的 WebSocket 客戶端和服務器庫。 WSGI 服務器 兼容 WSGI 的 web 服務器 gunicorn – Pre-forked, 部分是由 C 語言編寫的。 uwsgi – uwsgi 項目的目的是開發一組全棧工具,用來建立托管服務, 由 C 語言編寫。 bjoern – 異步,非??焖?,由 C 語言編寫。 fapws3 – 異步 (僅對于網絡端),由 C 語言編寫。 meinheld – 異步,部分是由 C 語言編寫的。 netius – 異步,非??焖?。 paste – 多線程,穩定,久經考驗。 rocket – 多線程。 waitress – 多線程, 是它驅動著 Pyramid 框架。 Werkzeug – 一個 WSGI 工具庫,驅動著 Flask ,而且可以很方便大嵌入到你的項目中去。 RPC 服務器 兼容 RPC 的服務器。 SimpleJSONRPCServer – 這個庫是 JSON-RPC 規范的一個實現。 SimpleXMLRPCServer – (Python 標準庫) 簡單的 XML-RPC 服務器實現,單線程。 zeroRPC – zerorpc 是一個靈活的 RPC 實現,基于 ZeroMQ 和 MessagePack。 密碼學 cryptography – 這個軟件包意在提供密碼學基本內容和方法提供給 Python 開發者。 hashids – 在 Python 中實現 hashids 。 Paramiko – SSHv2 協議的 Python (2.6+, 3.3+) ,提供客戶端和服務端的功能。 Passlib – 安全密碼存儲/哈希庫, PyCrypto – Python 密碼學工具箱。 PyNacl – 網絡和密碼學(NaCl) 庫的 Python 綁定。 圖形用戶界面 用來創建圖形用戶界面程序的庫。 curses – 內建的 ncurses 封裝,用來創建終端圖形用戶界面。 enaml – 使用類似 QML 的Declaratic語法來創建美觀的用戶界面。 kivy – 一個用來創建自然用戶交互(NUI)應用程序的庫,可以運行在 Windows, Linux, Mac OS X, Android 以及 iOS平臺上。 pyglet – 一個Python 的跨平臺窗口及多媒體庫。 PyQt – 跨平臺用戶界面框架 Qt 的 Python 綁定 ,支持Qt v4 和 Qt v5。 PySide – P跨平臺用戶界面框架 Qt 的 Python 綁定 ,支持Qt v4。 Tkinter – Tkinter 是 Python GUI 的一個事實標準庫。 Toga – 一個 Python 原生的, 操作系統原生的 GUI 工具包。 urwid – 一個用來創建終端 GUI 應用的庫,支持組件,事件和豐富的色彩等。 wxPython – wxPython 是 wxWidgets C++ 類庫和 Python 語言混合的產物。 PyGObject – GLib/GObject/GIO/GTK+ (GTK+3) 的 Python 綁定 Flexx – Flexx 是一個純 Python 語言編寫的用來創建 GUI 程序的工具集,它使用 web 技術進行界面的展示。 游戲開發 超贊的游戲開發庫。 Cocos2d – cocos2d 是一個用來開發 2D 游戲, 示例和其他圖形/交互應用的框架?;?pyglet。 Panda3D – 由迪士尼開發的 3D 游戲引擎,并由卡內基梅隴娛樂技術中心負責維護。使用C++編寫, 針對 Python 進行了完全的封裝。 Pygame – Pygame 是一組 Python 模塊,用來編寫游戲。 PyOgre – Ogre 3D 渲染引擎的 Python 綁定,可以用來開發游戲和仿真程序等任何 3D 應用。 PyOpenGL – OpenGL 的 Python 綁定及其相關 APIs。 PySDL2 – SDL2 庫的封裝,基于 ctypes。 RenPy – 一個視覺小說(visual novel)引擎。 日志 用來生成和操作日志的庫。 logging – (Python 標準庫) 為 Python 提供日志功能。 logbook – Logging 庫的替代品。 Eliot – 為復雜的和分布式系統創建日志。 Raven – Sentry的 Python 客戶端。 Sentry – 實時記錄和收集日志的服務器。 Testing 進行代碼庫測試和生成測試數據的庫。 測試框架 unittest – (Python 標準庫) 單元測試框架。 nose – nose 擴展了 unittest 的功能。 contexts – 一個 Python 3.3+ 的 BDD 框架。受到C# – Machine.Specifications 的啟發。 hypothesis – Hypothesis 是一個基于先進的 Quickcheck 風格特性的測試庫。 mamba – Python 的終極測試工具, 擁護BDD。 PyAutoGUI – PyAutoGUI 是一個人性化的跨平臺 GUI 自動測試模塊。 pyshould – Should 風格的斷言,基于 PyHamcrest 。 pytest – 一個成熟的全功能 Python 測試工具。 green – 干凈,多彩的測試工具。 pyvows – BDD 風格的測試工具,受Vows.js的啟發。 Robot Framework – 一個通用的自動化測試框架。 Web 測試 Selenium – Selenium WebDriver 的 Python 綁定。 locust – 使用 Python 編寫的,可擴展的用戶加載測試工具。 sixpack – 一個和語言無關的 A/B 測試框架。 splinter – 開源的 web 應用測試工具。 Mock測試 mock – (Python 標準庫) 一個用于偽造測試的庫。 doublex – Python 的一個功能強大的 doubles 測試框架。 freezegun – 通過偽造日期模塊來生成不同的時間。 httmock – 針對 Python 2.6+ 和 3.2+ 生成 偽造請求的庫。 httpretty – Python 的 HTTP 請求 mock 工具。 responses – 偽造 Python 中的 requests 庫的一個通用庫。 VCR.py – 在你的測試中記錄和重放 HTTP 交互。 對象工廠 factory_boy – 一個 Python 用的測試固件 (test fixtures) 替代庫。 mixer – 另外一個測試固件 (test fixtures) 替代庫,支持 Django, Flask, SQLAlchemy, Peewee 等。 model_mommy – 為 Django 測試創建隨機固件 代碼覆蓋率 coverage – 代碼覆蓋率測量。 偽數據 faker – 一個 Python 庫,用來生成偽數據。 fake2db – 偽數據庫生成器。 radar – 生成隨機的日期/時間。 錯誤處理 [FuckIt.py](https://github.com/ajalt/fuckitpy) – FuckIt.py 使用最先進的技術來保證你的 Python 代碼無論對錯都能繼續運行。 代碼分析和Lint工具 進行代碼分析,解析和操作代碼庫的庫和工具。 代碼分析 code2flow – 把你的 Python 和 JavaScript 代碼轉換為流程圖。 pycallgraph -這個庫可以把你的Python 應用的流程(調用圖)進行可視化。 pysonar2 – Python 類型推斷和檢索工具。 Lint工具 Flake8 – 模塊化源碼檢查工具: pep8, pyflakes 以及 co。 Pylint – 一個完全可定制的源碼分析器。 pylama – Python 和 JavaScript 的代碼審查工具。 Debugging Tools 用來進行代碼調試的庫。 調試器 ipdb – IPython 啟用的 pdb 。 pudb – 全屏,基于控制臺的 Python 調試器。 pyringe – 可以在 Python 進程中附加和注入代碼的調試器。 wdb – 一個奇異的 web 調試器,通過 WebSockets 工作。 winpdb – 一個具有圖形用戶界面的 Python 調試器,可以進行遠程調試,基于 rpdb2。 django-debug-toolbar – 為 Django 顯示各種調試信息。 django-devserver – 一個 Django 運行服務器的替代品。 flask-debugtoolbar – django-debug-toolbar 的 flask 版。 性能分析器 line_profiler – 逐行性能分析。 memory_profiler – 監控 Python 代碼的內存使用。 profiling – 一個交互式 Python 性能分析工具。 其他 pyelftools – 解析和分析 ELF 文件以及 DWARF 調試信息。 python-statsd – statsd 服務器的 Python 客戶端。 Science and Data Analysis 用來進行科學計算和 數據分析 的庫。 astropy – 一個天文學 Python 庫。 bcbio-nextgen – 這個工具箱為全自動高通量測序分析提供符合最佳實踐的處理流程。 bccb – 生物分析相關代碼集合 Biopython – Biopython 是一組可以免費使用的用來進行生物計算的工具。 blaze – NumPy 和 Pandas 的 大數據 接口。 cclib – 一個用來解析和解釋計算化學軟件包輸出結果的庫。 NetworkX – 一個為復雜網絡設計的高性能軟件。 Neupy – 執行和測試各種不同的人工神經網絡算法。 Numba – Python JIT (just in time) 編譯器,針對科學用的 Python ,由Cython 和 NumPy 的開發者開發。 NumPy – 使用 Python 進行科學計算的基礎包。 Open Babel – 一個化學工具箱,用來描述多種化學數據。 Open Mining – 使用 Python 挖掘商業情報 (BI) (Pandas web 接口)。 orange – 通過可視化編程或 Python 腳本進行 數據挖掘 , 數據可視化 ,分析和機器學習。 Pandas – 提供高性能,易用的數據結構和數據分析工具。 PyDy – PyDy 是 Python Dynamics 的縮寫,用來為動力學運動建模工作流程提供幫助, 基于 NumPy, SciPy, IPython 和 matplotlib。 PyMC – 馬爾科夫鏈蒙特卡洛采樣工具。 RDKit – 化學信息學和機器學習軟件。 SciPy – 由一些基于 Python ,用于數學,科學和工程的開源軟件構成的生態系統。 statsmodels – 統計建模和計量經濟學。 SymPy – 一個用于符號數學的 Python 庫。 zipline – 一個 Python 算法交易庫。 數據可視化 進行數據可視化的庫。 參見: awesome-javascript 。 matplotlib – 一個 Python 2D 繪圖庫。 bokeh – 用 Python 進行交互式 web 繪圖。 ggplot – ggplot2 給 R 提供的 API 的 Python 版本。 plotly – 協同 Python 和 matplotlib 工作的 web 繪圖庫。 pygal – 一個 Python SVG 圖表創建工具。 pygraphviz – Graphviz 的 Python 接口。 PyQtGraph – 交互式實時2D/3D/圖像繪制及科學/工程學組件。 SnakeViz – 一個基于瀏覽器的 Python’s cProfile 模塊輸出結果查看工具。 vincent – 把 Python 轉換為 Vega 語法的轉換工具。 VisPy – 基于 OpenGL 的高性能科學可視化工具。 計算機視覺 計算機視覺庫。 OpenCV – 開源計算機視覺庫。 SimpleCV – 一個用來創建計算機視覺應用的開源框架。 機器學習 機器學習庫。 參見: awesome-machine-learning . Crab – 靈活、快速的推薦引擎。 gensim – 人性化的話題建模庫。 hebel – GPU 加速的深度學習庫。 NuPIC – 智能計算 Numenta 平臺。 pattern – Python 網絡挖掘模塊。 PyBrain – 另一個 Python 機器學習庫。 Pylearn2 – 一個基于 Theano 的機器學習庫。 python-recsys – 一個用來實現推薦系統的 Python 庫。 scikit-learn – 基于 SciPy 構建的機器學習 Python 模塊。 pydeep – Python 深度學習庫。 vowpal_porpoise – 輕量級 Vowpal Wabbit 的 Python 封裝。 skflow – 一個 TensorFlow 的簡化接口(模仿 scikit-learn)。 MapReduce MapReduce 框架和庫。 dpark – Spark 的 Python 克隆版,一個類似 MapReduce 的框架。 dumbo – 這個 Python 模塊可以讓人輕松的編寫和運行 Hadoop 程序。 luigi – 這個模塊幫你構建批處理作業的復雜流水線。 mrjob – 在 Hadoop 或 Amazon Web Services 上運行 MapReduce 任務。 PySpark – Spark 的 Python API 。 streamparse – 運行針對事實數據流的 Python 代碼。集成了 Apache Storm 。 函數式編程 使用 Python 進行函數式編程。 CyToolz – Toolz 的 Cython 實現 : 高性能函數式工具。 fn.py – 在 Python 中進行函數式編程 : 實現了一些享受函數式編程缺失的功能。 funcy – 炫酷又實用的函數式工具。 Toolz – 一組用于迭代器,函數和字典的函數式編程工具。 第三方 API 用來訪問第三方 API的庫。 參見: List of Python API Wrappers and Libraries 。 apache-libcloud – 一個為各種云設計的 Python 庫。 boto – Amazon Web Services 的 Python 接口。 django-wordpress – WordPress models and views for Django. facebook-sdk – Facebook 平臺的 Python SDK. facepy – Facepy 讓和 Facebook’s Graph API 的交互變得更容易。 gmail – Gmail 的 Python 接口。 google-api-python-client – Python 用的 Google APIs 客戶端庫。 gspread – Google 電子表格的 Python API. twython – Twitter API 的封裝。 DevOps 工具 用于 DevOps 的軟件和庫。 Ansible – 一個非常簡單的 IT 自動化平臺。 SaltStack – 基礎設施自動化和管理系統。 OpenStack – 用于構建私有和公有云的開源軟件。 Docker Compose – 快速,分離的開發環境,使用 Docker。 Fabric – 一個簡單的,Python 風格的工具,用來進行遠程執行和部署。 cuisine – 為 Fabric 提供一系列高級函數。 Fabtools – 一個用來編寫超贊的 Fabric 文件的工具。 gitapi – Git 的純 Python API。 hgapi – Mercurial 的純 Python API。 honcho – Foreman 的 Python 克隆版,用來管理基于 Procfile 的應用。 pexpect – Controlling interactive programs in a pseudo-terminal like 在一個偽終端中控制交互程序,就像 GNU expect 一樣。 psutil – 一個跨平臺進程和系統工具模塊。 supervisor – UNIX 的進程控制系統。 任務調度 任務調度庫。 APScheduler – 輕巧但強大的進程內任務調度,使你可以調度函數。 django-schedule – 一個 Django 排程應用。 doit – 一個任務執行和構建工具。 gunnery – 分布式系統使用的多用途任務執行工具 ,具有 web 交互界面。 Joblib – 一組為 Python 提供輕量級作業流水線的工具。 Plan – 如有神助地編寫 crontab 文件。 schedule – 人性化的 Python 任務調度庫。 Spiff – 使用純 Python 實現的強大的工作流引擎。 TaskFlow – 一個可以讓你方便執行任務的 Python 庫,一致并且可靠。 外來函數接口 使用外來函數接口的庫。 cffi – 用來調用 C 代碼的外來函數接口。 ctypes – (Python 標準庫) 用來調用 C 代碼的外來函數接口。 PyCUDA – Nvidia CUDA API 的封裝。 SWIG – 簡化的封裝和接口生成器。 高性能 讓 Python 更快的庫。 Cython – 優化的 Python 靜態編譯器。使用類型混合使 Python 編譯成 C 或 C++ 模塊來獲得性能的極大提升。 PeachPy – 嵌入 Python 的 x86-64 匯編器??梢员挥米?Python 內聯的匯編器或者是獨立的匯編器,用于 Windows, Linux, OS X, Native Client 或者 Go 。 PyPy – 使用 Python 實現的 Python。解釋器使用黑魔法加快 Python 運行速度且不需要加入額外的類型信息。 Pyston – 使用 LLVM 和現代 JIT 技術構建的 Python 實現,目標是為了獲得很好的性能。 Stackless Python – 一個強化版的 Python。 微軟的 Windows平臺 在 Windows 平臺上進行 Python 編程。 Python(x,y) – 面向科學應用的 Python 發行版,基于 Qt 和 Spyder。 pythonlibs – 非官方的 Windows 平臺 Python 擴展二進制包。 PythonNet – Python 與 .NET 公共語言運行庫 (CLR)的集成。 PyWin32 – 針對 Windows 的Python 擴展。 WinPython – Windows 7/8 系統下便攜式開發環境。 網絡可視化和SDN 用來進行網絡可視化和SDN(軟件定義網絡)的工具和庫。 Mininet – 一款流行的網絡模擬器以及用 Python 編寫的 API。 POX – 一個針對基于 Python 的軟件定義網絡應用(例如 OpenFlow SDN 控制器)的開源開發平臺。 Pyretic – 火熱的 SDN 編程語言中的一員,為網絡交換機和模擬器提供強大的抽象能力。 SDX Platform – 基于 SDN 的 IXP 實現,影響了 Mininet, POX 和 Pyretic。 硬件 用來對硬件進行編程的庫。 ino -操作 Arduino 的命令行工具。 Pyro – Python 機器人編程庫。 PyUserInput – 跨平臺的,控制鼠標和鍵盤的模塊。 scapy – 一個非常棒的操作數據包的庫。 wifi – 一個 Python 庫和命令行工具用來在 Linux 平臺上操作WiFi。 Pingo – Pingo 為類似Raspberry Pi,pcDuino, Intel Galileo等設備提供統一的API用以編程。 兼容性 幫助從 Python 2 向 Python 3遷移的庫。 Python-Future – 這就是 Python 2 和 Python 3 之間丟失的那個兼容性層。 Python-Modernize – 使 Python 代碼更加現代化以便最終遷移到 Python 3。 Six – Python 2 和 3 的兼容性工具。 雜項 不屬于上面任何一個類別,但是非常有用的庫。 blinker – 一個快速的 Python 進程內信號/事件分發系統。 itsdangerous – 一系列輔助工具用來將可信的數據傳入不可信的環境。 pluginbase – 一個簡單但是非常靈活的 Python 插件系統。 Pychievements – 一個用來創建和追蹤成就的 Python 框架。 Tryton – 一個通用商務框架。 算法和設計模式 Python 實現的算法和設計模式。 algorithms -一個 Python 算法模塊 python-patterns – Python 設計模式的集合。 sortedcontainers – 快速,純 Python 實現的SortedList,SortedDict 和 SortedSet 類型。 編輯器插件 編輯器和 IDE 的插件 Emacs Elpy – Emacs Python 開發環境。 Sublime Text SublimeJEDI – 一個 Sublime Text 插件,用來使用超贊的自動補全庫 Jedi。 Anaconda – Anaconda 把你的 Sublime Text 3 變成一個功能齊全的 Python IDE。 Vim YouCompleteMe – 引入基于 Jedi 的 Python 自動補全引擎。 Jedi-vim – 綁定 Vim 和 Jedi 自動補全庫對 Python 進行自動補全。 Python-mode – 將 Vim 變成 Python IDE 的一款多合一插件。 Visual Studio PTVS – Visual Studio 的 Python 工具 集成開發環境 流行的 Python 集成開發環境。 PyCharm – 商業化的 Python IDE ,由 JetBrains 開發。也有免費的社區版提供。 LiClipse – 基于 Eclipse 的免費多語言 IDE 。使用 PyDev 來支持 Python 。 Spyder – 開源 Python IDE。 服務 在線工具和簡化開發的 API 。 持續集成 參見: awesome-CIandCD . Travis CI – 一個流行的工具,為你的開源和 私人 項目提供持續集成服務。(僅支持 GitHub) CircleCI – 一個持續集成工具,可以非??焖俚倪M行并行測試。 (僅支持 GitHub) Vexor CI – 一個為私人 app 提供持續集成的工具,支持按分鐘付費。 Wercker – 基于 Docker 平臺,用來構建和部署微服務。 代碼質量 Codacy – 自動化代碼審查,更加快速的發布高質量代碼。對于開源項目是免費的。 QuantifiedCode – 一個數據驅動、自動、持續的代碼審查工具。 Resources 在這里可以找到新的 Python 庫。 網站 r/Python CoolGithubProjects Django Packages Full Stack Python Python 3 Wall of Superpowers Python Hackers Python ZEEF Trending Python repositories on GitHub today PyPI Ranking 周刊 Import Python Newsletter Pycoder’s Weekly Python Weekly Twitter @codetengu @getpy @planetpython @pycoders @pypi @pythontrending @PythonWeekly Other Awesome Lists List of lists. Python pycrumbs python-github-projects python_reference pythonidae Monty awesome lists 其他榜單 關于列表的列表。 Python pycrumbs python-github-projects python_reference pythonidae Monty awesome lists 參與貢獻 我們始終歡迎您參與這個項目!請先看一下 參與指導說明 。 如果我不確定某個庫是不是很贊的話,我就會保持pull request的開放,你可以通過留言(帶有+1字樣) 給它們投票 。 本文由 伯樂在線 – 艾凌風 翻譯, Namco 校稿。 英文出處: github.com 。 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2016-03-15 19:21:00
  2018 年 8 月,蘋果公司創造了歷史,成為全球首家市值超過 1 萬億美元的上市科技公司。此后,它僅用了兩年時間就讓市值突破了 2 萬億美元大關。這次,其首席執行官蒂姆·庫克(Tim Cook)也為自己贏得了大筆獎金。   美國當地時間周一,庫克收到了 56 萬股蘋果股票獎勵,按當前市場價格計算,價值高達 2.828 億美元,這是他九年前接替史蒂夫·喬布斯(Steve Jobs)時簽署股權獎勵方案的一部分。   庫克在 2011 年執掌蘋果時,獲得了當時價值 3.76 億美元的限制性股權獎勵方案。按照該方案規定,在蘋果股票持續表現優于標準普爾 500 指數的條件下,庫克可在 10 年內每年領取一部分獎勵。   根據協議,如果蘋果三年股票增值超過標準普爾 500 指數成份股中三分之二公司,庫克將有資格每年獲得 56 萬股股票。如果蘋果股票位于中間,庫克的股權獎勵將減少一半。如果蘋果的表現位于墊底的三分之一公司中,庫克則得不到任何股票獎勵。   截至美國當地時間上周五,蘋果在過去三年的股票收益(包括再投資股息)比絕大多數標準普爾 500 指數成份股公司高出 200% 以上,這使庫克的表現遠遠高于當初協議中規定的門檻。   2020 年到目前為止,盡管新冠疫情對經濟造成了影響,但蘋果的股票始終處于勢不可擋的上升趨勢中。上周五收盤時,蘋果股價自 3 月份市場崩盤以來已經翻了一番,比年初上漲了 60%,市值超過了 2 萬億美元。   8 月 10 日,庫克的凈資產首次突破 10 億美元大關,對于那些不擁有自己所經營公司創始股權的高管來說,這是個罕見的里程碑。摩根大通首席執行官杰米·戴蒙(Jamie Dimon)和 Facebook 首席運營官謝麗爾·桑德伯格(Sheryl Sandberg)等人也進入了億萬富翁排行榜。   撇開股權獎勵不談,庫克的年度基本工資為 300 萬美元,還有基于業績的現金獎金和其他收入,包括養老金和保險?,F年 59 歲的庫克 2015 年就曾承諾捐出自己的大部分財富,他已經捐贈了價值數百萬美元的蘋果股票。
來源:博客園
發布時間:2020-08-25 07:50:00
PHP是目前最流行、最易學最強大的計算機語言之一( 學習培訓Python的幾大理由 ),無論你是新手還是老鳥,無論是用于深度學習還是web開發設計(Pinterest就是案例), Python 都是一件利器。此外,Python不但人氣日益高漲,而且Python程序流程猿的薪資市場行情也是水漲船高,北美Python程序員的平均薪資高達hg12萬美金。 對于有志學習Python的開發者而言,Python吸引人的地方不僅是有個優秀的 社區 ,而且還有大量的精品免費資源可用。連環創業家,Code(Love)創辦人Paul Huang近日分享了11個優秀的Python學習資源,IT主管網編譯如下: 一、Python優秀書藉 《Learn Python the Hard Way》的作者將書中的內容制做成 網絡教程 免費提供,包括很多值得花時間完成的習題,只有多敲代碼,你能夠從菜鳥變成老虎。 二、Python視頻教學 如果你習慣學習視頻,那么能夠考慮到選擇 Udacity 的Python for the web 網上課程內容 ,通過學習該課程,你將對web統計數據的流轉有著更深入的認識。 三、Github上的Python資源庫 Github上帶大量優質的Python資源庫,例如 這個 。 四、Anaconda與iPython Notebook Anaconda和iPython Notebook 可以看作是Python的“電子表格”。通常Python的代碼沒辦法通過html語言等web文件格式分享,尤其是展示涉及到不一樣腳本制作中的數據圖做成的結構化flow。Anaconda和iPython Notebook可以直觀 數據可視化 的方式組織關聯不同Python手機軟件模塊,在 nbviewer 中輕松展示結果,并且還能轉化成HTML版本號的Notebook文件便于在Github上分享。 五、用Pandas解決互聯網 大數據 Pandas 的開發基于前面提到的iPython Notebook,Python只能幫你處理載入到運行內存中的數據,Pandas可以讓你高效載入更大規模數據,例如海量的CSV文件,進行數據預處理并用于透視表或者可視化。 六、用Flask開發小型程序 Flask是一個微框架,你能用它來開發一些小型web新項目,Flask包含了互動網址項目常用的一些可復用的數據通信模塊,只必須一行代碼,我也能生成一個互動功能。 七、用Django開發大型項目 如果你要開發一個完整的web框架,那么就試試 Django 吧,很多Pinterests和Instagram那樣的超大規模網站都是用Django開發的。 八、用Python玩轉API API是web經濟發展的支柱之一,這兒詳細介紹一個 Python 第三方API精華列表 ,你可以用Python調用那些很酷的數據,讓你的應用與眾不同。 九、 Python的機器學習資源庫 這個Github上的Python 機器學習 庫提供大量優秀資源,讓你快速新手入門。 十、Plotly幫你用數據講童話故事 柴靜的霧霾天氣演講為什么火?因為她用數據講故事唄。只需幾行代碼,你就能用 Plot.ly 生成各種常見數據圖表。 十一、檢測你的Python段位 當你自以為學得類似了,開始澎漲的時候,就可以考慮去 HackerRank 測試一下下你的“段位”,高段位的還有可能值得獲得工作機會喲。 來源:IT經理網 連接:http://www.ctocio.com/ccnews/19793.html 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2016-03-14 14:35:00
  美國時間周一,美股收盤全線上漲,標準普爾 500 指數和納斯達克綜合指數再創歷史新高,受新冠肺炎疫情影響的市場人氣有所改善。   道瓊斯指數收于 28308.46 點,上漲 378.13 點,漲幅 1.35%;標準普爾 500 指數收于 3431.28 點,上漲 1.00%,創歷史新高,并首次收于 3400 點上方;納斯達克綜合指數收于 11379.72 點,上漲 0.60%,也創下新高。   具體來說,在美股周一交易中,科技龍頭股多數上漲,蘋果股價收于 503.43 美元,上漲 1.20%;谷歌母公司 Alphabet 股價收于 1588.20 美元,上漲 0.49%;亞馬遜收于 3307.46 美元,上漲 0.69%;微軟收于 213.69 美元,上漲 0.31%;Facebook 收于 271.39 美元,上漲 1.64%;甲骨文收于 56.01 美元,上漲 1.49%;IBM 收于 125.68 美元,上漲 2.05%;奈飛(Netflix)收于 488.81 美元,下跌 0.71%;特斯拉收于 2014.20 美元,下跌 1.75%;推特(Twitter)漲 3.13%,優步(Uber)漲 0.68%;Lyft 漲 0.17%。   美股中的芯片龍頭股普遍上漲,臺積電收于 78.90 美元,上漲 0.71%;英偉達收于 508.81 美元,上漲 0.29%;英特爾收于 49.14 美元,下跌 0.28%;博通收于 334.00 美元,上漲 1.21%;高通收于 115.91 美元,上漲 2.58%;德州儀器收于 141.02 美元,上漲 0.49%;AMD 收于 83.08 美元,下跌 0.87%;應用材料公司漲 2.36%;美光科技漲 2.58%。   在美國上市的主要中概股普遍上漲,網易收于 492.89 美元,上漲 1.63%;阿里巴巴收于 276.02 美元,上漲 3.84%;京東收于 76.18 美元,上漲 1.60%;百度收于 122.88 美元,上漲 0.35%;拼多多收于 83.16 美元,下跌 1.00%;嗶哩嗶哩收于 46.12 美元,上漲 2.51%;好未來收于 74.56 美元,上漲 0.63%;愛奇藝收于 19.46 美元,上漲 2.31%;跟誰學收于 87.50 美元,下跌 3.06%;微博收于 34.79 美元,上漲 2.96%;新浪漲 1.97%;搜狐漲 3.91%;搜狗漲 0.81%;攜程漲 1.64%;前程無憂漲 0.82%;汽車之家漲 1.49%;58 同城漲 0.02%;蔚來漲 6.02%;金山云跌 2.48%,理想汽車漲 13.78%。   由于美國新冠肺炎治療取得積極進展,航空公司和郵輪運營商的股價上漲。美國聯合航空公司和美國航空公司股價上漲超過9%;挪威郵輪公司和皇家加勒比郵輪公司分別上漲 7.6% 和 4.7%。   美股周一的上漲,是在美國新冠肺炎確診病例數持續下降的情況下實現的。根據約翰霍普金斯大學的數據,本月早些時候,美國單日新增新冠確診病例曾高達 6.4 萬多例,但目前單日新增病例末超過 4.9 萬例。數據顯示,上周日,美國新增確診病例不到 3.7 萬例。   市場研究公司 Fundstrat Global Advisors 研究主管湯姆·李(Tom Lee)在一份報告中表示:“我認為未來幾周或幾個月疫情可能會發生一些有趣的變化。我認為,9 月份美國單日新增新冠確診病例降至 1 萬例以下是完全有可能的?!?   他指出:“美國很快就會成為世界上最安全的地方之一。如果這是真的,資本也會涌向美國,這意味著股價會進一步上漲?!?   上周日,美國食品和藥物管理局(FDA)頒發了一份新冠肺炎患者恢復期血漿緊急使用授權書,這種治療方法使用的是已痊愈的患者捐獻的血漿。   美國總統特朗普在周日的新聞發布會上表示,這種血漿治療方法將新冠肺炎的死亡率降低了 35%。
來源:博客園
發布時間:2020-08-25 07:42:00
摘要:本文介紹7款 Python 數據圖表工具的比較 Python 的 科學棧 相當成熟,各種應用場景都有相關的模塊,包括 機器學習 和 數據分析 。 數據可視化 是發現數據和展示結果的重要一環,只不過過去以來,相對于 R 這樣的工具,發展還是落后一些。 幸運的是,過去幾年出現了很多新的Python數據可視化庫,彌補了一些這方面的差距。 matplotlib 已經成為事實上的數據可視化方面最主要的庫,此外還有很多其他庫,例如 vispy, bokeh , seaborn , pyga, folium 和 networkx ,這些庫有些是構建在 matplotlib 之上,還有些有其他一些功能。 本文會基于一份真實的數據,使用這些庫來對數據進行可視化。通過這些對比,我們期望了解每個庫所適用的范圍,以及如何更好的利用整個 Python 的數據可視化的生態系統。 我們在 Dataquest 建了一個交互課程,教你如何使用 Python 的數據可視化工具。如果你打算深入學習,可以點 這里 。 探索數據集 在我們探討數據的可視化之前,讓我們先來快速的瀏覽一下我們將要處理的數據集。我們將要使用的數據來自 openflights 。我們將要使用 航線數據集 、 機場數據集 、 航空公司數據集 。其中,路徑數據的每一行對應的是兩個機場之間的飛行路徑;機場數據的每一行對應的是世界上的某一個機場,并且給出了相關信息;航空公司的數據的每一行給出的是每一個航空公司。 首先我們先讀取數據: #Importthepandaslibrary. import pandas #Readintheairportsdata. airports = pandas . read_csv ( “airports.csv” , header = None , dtype = str ) airports . columns = [ “id” , “name” , “city” , “country” , “code” , “icao” , “latitude” , “longitude” , “altitude” , “offset” , “dst” , “timezone” ] #Readintheairlinesdata. airlines = pandas . read_csv ( “airlines.csv” , header = None , dtype = str ) airlines . columns = [ “id” , “name” , “alias” , “iata” , “icao” , “callsign” , “country” , “active” ] #Readintheroutesdata. routes = pandas . read_csv ( “routes.csv” , header = None , dtype = str ) routes . columns = [ “airline” , “airline_id” , “source” , “source_id” , “dest” , “dest_id” , “codeshare” , “stops” , “equipment” ] 這些數據沒有列的首選項,因此我們通過賦值 column 屬性來添加列的首選項。我們想要將每一列作為字符串進行讀取,因為這樣做可以簡化后續以行 id 為匹配,對不同的數據框架進行比較的步驟。我們在讀取數據時設置了 dtype 屬性值達到這一目的。 我們可以快速瀏覽一下每一個數據集的數據框架。 airports . head ( ) Python airlines.head() Python routes.head() 我們可以分別對每一個單獨的數據集做許多不同有趣的探索,但是只要將它們結合起來分析才能取得最大的收獲。Pandas 將會幫助我們分析數據,因為它能夠有效的過濾權值或者通過它來應用一些函數。我們將會深入幾個有趣的權值因子,比如分析航空公司和航線。 那么在此之前我們需要做一些數據清洗的工作。 routes=routes[routes[“airline_id”]!=”N”] 這一行命令就確保了我們在 airline_id 這一列只含有數值型數據。 制作柱狀圖 現在我們理解了數據的結構,我們可以進一步地開始描點來繼續探索這個問題。首先,我們將要使用 matplotlib 這個工具,matplotlib 是一個相對底層的 Python 棧中的描點庫,所以它比其他的工具庫要多敲一些命令來做出一個好看的曲線。另外一方面,你可以使用 matplotlib 幾乎做出任何的曲線,這是因為它十分的靈活,而靈活的代價就是非常難于使用。 我們首先通過做出一個柱狀圖來顯示不同的航空公司的航線長度分布。一個柱狀圖將所有的航線的長度分割到不同的值域,然后對落入到不同的值域范圍內的航線進行計數。從中我們可以知道哪些航空公司的航線長,哪些航空公司的航線短。 為了達到這一點,我們需要首先計算一下航線的長度,第一步就要使用距離公式,我們將會使用余弦半正矢距離公式來計算經緯度刻畫的兩個點之間的距離。 importmath defhaversine(lon1,lat1,lon2,lat2): #Convertcoordinatestofloats. lon1,lat1,lon2,lat2=[float(lon1),float(lat1),float(lon2),float(lat2)] #Converttoradiansfromdegrees. lon1,lat1,lon2,lat2=map(math.radians,[lon1,lat1,lon2,lat2]) #Computedistance. dlon=lon2-lon1 dlat=lat2-lat1 a=math.sin(dlat/2)**2+math.cos(lat1)*math.cos(lat2)*math.sin(dlon/2)**2 c=2*math.asin(math.sqrt(a)) km=6367*c returnkm 然后我們就可以使用一個函數來計算起點機場和終點機場之間的單程距離。我們需要從路線數據框架得到機場數據框架所對應的 source_id 和 dest_id,然后與機場的數據集的 id 列相匹配,然后就只要計算就行了,這個函數是這樣的: defcalc_dist(row): dist=0 try: #Matchsourceanddestinationtogetcoordinates. source=airports[airports[“id”]==row[“source_id”]].iloc[0] dest=airports[airports[“id”]==row[“dest_id”]].iloc[0] #Usecoordinatestocomputedistance. dist=haversine(dest[“longitude”],dest[“latitude”],source[“longitude”],source[“latitude”]) except(ValueError,IndexError): pass returndist 如果 source_id 和 dest_id 列沒有有效值的話,那么這個函數會報錯。因此我們需要增加 try/catch 模塊對這種無效的情況進行捕捉。 最后,我們將要使用 pandas 來將距離計算的函數運用到 routes 數據框架。這將會使我們得到包含所有的航線線長度的 pandas 序列,其中航線線的長度都是以公里做單位。 route_lengths=routes.apply(calc_dist,axis=1) 現在我們就有了航線距離的序列了,我們將會創建一個柱狀圖,它將會將數據歸類到對應的范圍之內,然后計數分別有多少的航線落入到不同的每個范圍: importmatplotlib.pyplotasplt %matplotlibinline plt.hist(route_lengths,bins=20) 我們用 import matplotlib.pyplot as plt 導入 matplotlib 描點函數。然后我們就使用 %matplotlib inline 來設置 matplotlib 在 ipython 的 notebook 中描點,最終我們就利用 plt.hist(route_lengths, bins=20) 得到了一個柱狀圖。正如我們看到的,航空公司傾向于運行近距離的短程航線,而不是遠距離的遠程航線。 使用 seaborn 我們可以利用 seaborn 來做類似的描點,seaborn 是一個 Python 的高級庫。Seaborn 建立在 matplotlib 的基礎之上,做一些類型的描點,這些工作常常與簡單的統計工作有關。我們可以基于一個核心的概率密度的期望,使用 distplot 函數來描繪一個柱狀圖。一個核心的密度期望是一個曲線 —— 本質上是一個比柱狀圖平滑一點的,更容易看出其中的規律的曲線。 importseaborn seaborn.distplot(route_lengths,bins=20) 正如你所看到的那樣,seaborn 同時有著更加好看的默認風格。seaborn 不含有與每個 matplotlib 的版本相對應的版本,但是它的確是一個很好的快速描點工具,而且相比于 matplotlib 的默認圖表可以更好的幫助我們理解數據背后的含義。如果你想更深入的做一些統計方面的工作的話,seaborn 也不失為一個很好的庫。 條形圖 柱狀圖也雖然很好,但是有時候我們會需要航空公司的平均路線長度。這時候我們可以使用條形圖--每條航線都會有一個單獨的狀態條,顯示航空公司航線的平均長度。從中我們可以看出哪家是國內航空公司哪家是國際航空公司。我們可以使用pandas,一個python的 數據分析 庫,來酸楚每個航空公司的平均航線長度。 importnumpy #Putrelevantcolumnsintoadataframe. route_length_df=pandas.DataFrame({“length”:route_lengths,”id”:routes[“airline_id”]}) #Computethemeanroutelengthperairline. airline_route_lengths=route_length_df.groupby(“id”).aggregate(numpy.mean) #Sortbylengthsowecanmakeabetterchart. airline_route_lengths=airline_route_lengths.sort(“length”,ascending=False) 我們首先用航線長度和航空公司的id來搭建一個新的數據框架。我們基于airline_id把route_length_df拆分成組,為每個航空公司建立一個大體的數據框架。然后我們調用pandas的aggregate函數來獲取航空公司數據框架中長度列的均值,然后把每個獲取到的值重組到一個新的數據模型里。之后把數據模型進行排序,這樣就使得擁有最多航線的航空公司拍到了前面。 這樣就可以使用matplotlib把結果畫出來。 plt.bar(range(airline_route_lengths.shape[0]),airline_route_lengths[“length”]) Matplotlib的plt.bar方法根據每個數據模型的航空公司平均航線長度(airline_route_lengths[“length”])來做圖。 問題是我們想看出哪家航空公司擁有的航線長度是什么并不容易。為了解決這個問題,我們需要能夠看到坐標軸標簽。這有點難,畢竟有這么多的航空公司。一個能使問題變得簡單的方法是使圖表具有交互性,這樣能實現放大跟縮小來查看軸標簽。我們可以使用bokeh庫來實現這個--它能便捷的實現交互性,作出可縮放的圖表。 要使用booked,我們需要先對數據進行預處理: deflookup_name(row): try: #Matchtherowidtotheidintheairlinesdataframesowecangetthename. name=airlines[“name”][airlines[“id”]==row[“id”]].iloc[0] except(ValueError,IndexError): name=”” returnname #Addtheindex(theairlineids)asacolumn. airline_route_lengths[“id”]=airline_route_lengths.index.copy() #Findalltheairlinenames. airline_route_lengths[“name”]=airline_route_lengths.apply(lookup_name,axis=1) #Removeduplicatevaluesintheindex. airline_route_lengths.index=range(airline_route_lengths.shape[0]) 上面的代碼會獲取airline_route_lengths中每列的名字,然后添加到name列上,這里存貯著每個航空公司的名字。我們也添加到id列上以實現查找(apply函數不傳index)。 最后,我們重置索引序列以得到所有的特殊值。沒有這一步,Bokeh 無法正常運行。 現在,我們可以繼續說圖表問題: importnumpyasnp frombokeh.ioimportoutput_notebook frombokeh.chartsimportBar,show output_notebook() p=Bar(airline_route_lengths,’name’,values=’length’,title=”Averageairlineroutelengths”) show(p) 用 output_notebook 創建背景虛化,在 iPython 的 notebook 里畫出圖。然后,使用數據幀和特定序列制作條形圖。最后,顯示功能會顯示出該圖。 這個圖實際上不是一個圖像--它是一個 JavaScript 插件。因此,我們在下面展示的是一幅屏幕截圖,而不是真實的表格。 有了它,我們可以放大,看哪一趟航班的飛行路線最長。上面的圖像讓這些表格看起來擠在了一起,但放大以后,看起來就方便多了。 水平條形圖 Pygal 是一個能快速制作出有吸引力表格的 數據分析 庫。我們可以用它來按長度分解路由。首先把我們的路由分成短、中、長三個距離,并在 route_lengths 里計算出它們各占的百分比。 Python long_routes = len([k for k in route_lengths if k > 10000]) / len(route_lengths) medium_routes = len([k for k in route_lengths if k < 10000 and k > 2000]) / len(route_lengths) short_routes = len([k for k in route_lengths if k < 2000]) / len(route_lengths) 然后我們可以在 Pygal 的水平條形圖里把每一個都繪成條形圖: 首先,我們創建一個空圖。然后,我們添加元素,包括標題和條形圖。每個條形圖通過百分比值(最大值是100)顯示出該類路由的使用頻率。 最后,我們把圖表渲染成文件,用 IPython 的 SVG 功能載入并展示文件。這個圖看上去比默認的 matplotlib 圖好多了。但是為了制作出這個圖,我們要寫的代碼也多很多。因此,Pygal 可能比較適用于制作小型的展示用圖表。 散點圖 在散點圖里,我們能夠縱向比較數據。我們可以做一個簡單的散點圖來比較航空公司的 id 號和航空公司名稱的長度: Python name_lengths = airlines[“name”].apply(lambda x: len(str(x))) plt.scatter(airlines[“id”].astype(int), name_lengths) 首先,我們使用 pandasapplymethod 計算每個名稱的長度。它將找到每個航空公司的名字字符的數量。然后,我們使用 matplotlib 做一個散點圖來比較航空 id 的長度。當我們繪制時,我們把 theidcolumn of airlines 轉換為整數類型。如果我們不這樣做是行不通的,因為它需要在 x 軸上的數值。我們可以看到不少的長名字都出現在早先的 id 中。這可能意味著航空公司在成立前往往有較長的名字。 我們可以使用 seaborn 驗證這個直覺。Seaborn 增強版的散點圖,一個聯合的點,它顯示了兩個變量是相關的,并有著類似地分布。 Python data = pandas.DataFrame({“lengths”: name_lengths, “ids”: airlines[“id”].astype(int)}) seaborn.jointplot(x=”ids”, y=”lengths”, data=data) 上面的圖表明,兩個變量之間的相關性是不明確的——r 的平方值是低的。 靜態 maps 我們的數據天然的適合繪圖-機場有經度和緯度對,對于出發和目的機場來說也是。 第一張圖做的是顯示全世界的所有機場??梢杂脭U展于 matplotlib 的 basemap 來做這個。這允許畫世界地圖和添加點,而且很容易定制。 Python # Import the basemap package from mpl_toolkits.basemap import Basemap # Create a map on which to draw.We’re using a mercator projection, and showing the whole world. m = Basemap(projection=’merc’,llcrnrlat=-80,urcrnrlat=80,llcrnrlon=-180,urcrnrlon=180,lat_ts=20,resolution=’c’) # Draw coastlines, and the edges of the map. m.drawcoastlines() m.drawmapboundary() # Convert latitude and longitude to x and y coordinates x, y = m(list(airports[“longitude”].astype(float)), list(airports[“latitude”].astype(float))) # Use matplotlib to draw the points onto the map. m.scatter(x,y,1,marker=’o’,color=’red’) # Show the plot. plt.show() 在上面的代碼中,首先用 mercator projection 畫一個世界地圖。墨卡托投影是將整個世界的繪圖投射到二位曲面。然后,在地圖上用紅點點畫機場。 上面地圖的問題是找到每個機場在哪是困難的-他們就是在機場密度高的區域合并城一團紅色斑點。 就像聚焦不清楚,有個交互制圖的庫,folium,可以進行放大地圖來幫助我們找到個別的機場。 Python import folium # Get a basic world map. airports_map = folium.Map(location=[30, 0], zoom_start=2) # Draw markers on the map. for name, row in airports.iterrows(): # For some reason, this one airport causes issues with the map. if row[“name”] != “South Pole Station”: airports_map.circle_marker(location=[row[“latitude”], row[“longitude”]], popup=row[“name”]) # Create and show the map. airports_map.create_map(‘airports.html’) airports_map Folium 使用 leaflet.js 來制作全交互式地圖。你可以點擊每一個機場在彈出框中看名字。在上邊顯示一個截屏,但是實際的地圖更令人印象深刻。Folium 也允許非常廣闊的修改選項來做更好的標注,或者添加更多的東西到地圖上。 畫弧線 在地圖上看到所有的航空路線是很酷的,幸運的是,我們可以使用 basemap 來做這件事。我們將畫 弧線 連接所有的機場出發地和目的地。每個弧線想展示一個段都航線的路徑。不幸的是,展示所有的線路又有太多的路由,這將會是一團糟。替代,我們只現實前 3000 個路由。 Python # Make a base map with a mercator projection.Draw the coastlines. m = Basemap(projection=’merc’,llcrnrlat=-80,urcrnrlat=80,llcrnrlon=-180,urcrnrlon=180,lat_ts=20,resolution=’c’) m.drawcoastlines() # Iterate through the first 3000 rows. for name, row in routes[:3000].iterrows(): try: # Get the source and dest airports. source = airports[airports[“id”] == row[“source_id”]].iloc[0] dest = airports[airports[“id”] == row[“dest_id”]].iloc[0] # Don’t draw overly long routes. if abs(float(source[“longitude”]) – float(dest[“longitude”])) < 90: # Draw a great circle between source and dest airports. m.drawgreatcircle(float(source[“longitude”]), float(source[“latitude”]), float(dest[“longitude”]), float(dest[“latitude”]),linewidth=1,color=’b’) except (ValueError, IndexError): pass # Show the map. plt.show() 上面的代碼將會畫一個地圖,然后再在地圖上畫線路。我們添加一了寫過濾器來阻止過長的干擾其他路由的長路由。 畫網絡圖 我們將做的最終的探索是畫一個機場網絡圖。每個機場將會是網絡中的一個節點,并且如果兩點之間有路由將劃出節點之間的連線。如果有多重路由,將添加線的權重,以顯示機場連接的更多。將使用 networkx 庫來做這個功能。 首先,計算機場之間連線的權重。 Python # Initialize the weights dictionary. weights = {} # Keep track of keys that have been added once — we only want edges with a weight of more than 1 to keep our network size manageable. added_keys = [] # Iterate through each route. for name, row in routes.iterrows(): # Extract the source and dest airport ids. source = row[“source_id”] dest = row[“dest_id”] # Create a key for the weights dictionary. # This corresponds to one edge, and has the start and end of the route. key = “{0}_{1}”.format(source, dest) # If the key is already in weights, increment the weight. if key in weights: weights[key] += 1 # If the key is in added keys, initialize the key in the weights dictionary, with a weight of 2. elif key in added_keys: weights[key] = 2 # If the key isn’t in added_keys yet, append it. # This ensures that we aren’t adding edges with a weight of 1. else: added_keys.append(key) 一旦上面的代碼運行,這個權重字典就包含了每兩個機場之間權重大于或等于 2 的連線。所以任何機場有兩個或者更多連接的路由將會顯示出來。 Python # Import networkx and initialize the graph. import networkx as nx graph = nx.Graph() # Keep track of added nodes in this set so we don’t add twice. nodes = set() # Iterate through each edge. for k, weight in weights.items(): try: # Split the source and dest ids and convert to integers. source, dest = k.split(“_”) source, dest = [int(source), int(dest)] # Add the source if it isn’t in the nodes. if source not in nodes: graph.add_node(source) # Add the dest if it isn’t in the nodes. if dest not in nodes: graph.add_node(dest) # Add both source and dest to the nodes set. # Sets don’t allow duplicates. nodes.add(source) nodes.add(dest) # Add the edge to the graph. graph.add_edge(source, dest, weight=weight) except (ValueError, IndexError): pass pos=nx.spring_layout(graph) # Draw the nodes and edges. nx.draw_networkx_nodes(graph,pos, node_color=’red’, node_size=10, alpha=0.8) nx.draw_networkx_edges(graph,pos,width=1.0,alpha=1) # Show the plot. plt.show() 總結 有一個成長的數據可視化的 Python 庫,它可能會制作任意一種可視化。大多數庫基于 matplotlib 構建的并且確保一些用例更簡單。如果你想更深入的學習怎樣使用 matplotlib,seaborn 和其他工具來可視化數據,在 這兒 檢出其他課程。 原文出處: Vik Paruchuri 譯文出處: 開源中國 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2016-03-13 01:21:00
  文/長庚君   來源:長庚科技(ID:changgengxiaobao)   上周,京東與拼多多、阿里巴巴先后披露最新財報。財報發出后,阿里巴巴當日股價微跌 1.01%,次日上漲 3.04%,財報并沒有對股價產生太大影響。   不過,拼多多與京東卻出現了K型走勢,從股價表現看,一個向南狂奔,一個向北狂奔。   其中,拼多多在上周五盤前發布財報后,股價當日暴跌 13.52%,一夜之間,市值蒸發 157.24 億美元。而京東在上周一發布財報后,股價持續 5 天上漲,一周漲幅接近 20%,股價創歷史新高。   先來看看拼多多。   談拼多多財報前,可以先看一組數據對比,該數據對比由雪球大V梁宏在上周末發布,隨后在雪球引發熱烈討論,并在國外投資人社區 seeking alpha 被廣泛引用。   梁宏對拼多多的質疑在于,阿里巴巴受疫情影響,Q1 的 GMV 同比增速是0%,Q2 同比增速是 20%;京東 Q1 的 GMV 同比增速為 20%,Q2 同比增速在 30% 左右,而拼多多 Q1 的 GMV 增速是 99%,Q2 增速是 48%。   一季度,在電商普遍受到疫情影響的情況下,阿里、京東這些電商的同比增速都在下滑,而拼多多卻逆市大增,一季度財報后幾個月間,拼多多股價暴漲了近 1 倍。二季度,阿里、京東都開始恢復的時候,拼多多的增速卻出現大幅下滑。   在 seeking alpha 上,部分海外投資人質疑拼多多的財報是在秀財技。雪球上,也有很多對拼多多財務數據是否真實的討論。   從公開披露的財報信息看,二季度,拼多多平臺年活躍買家數 6.832 億,同比增長 41%,平均月活用戶數 5.688 億,同比增長 55%,營收 121.93 億元,同比增長 67%。   此外,拼多多在二季度的虧損也大幅收窄,非通用會計準則下,歸屬于普通股股東的凈虧損為 7724 萬元,去年同期為凈虧損 4.11 億元。   財報之后,拼多多也在電話會議中表示,,"百億補貼"仍會持續,并覆蓋更多家庭必需品和農產品。   對比競爭對手,京東在去年推出了針對下沉市場的京喜平臺,并跟進百億補貼。阿里巴巴也在今年 1 月開始推出自己的百億補貼計劃。   這意味著,盡管拼多多的虧損在收窄,但是競爭對手補貼不停,拼多多就很難實現盈利。   長庚君認為,以今天的市場環境看,資本市場對無法盈利的公司的耐心終究是有限的。特斯拉也是在去年宣布盈利后,股價才開始大幅飛漲。   拼多多的挑戰在于,如何在前有阿里巴巴,后有京東的局面下,仍然維持高速增長,并讓資本市場維持信心。   接下先來說說股價大漲的京東。   二季度,京東營收首次突破 2000 億元,同比增長 33.8%。除了京東具有優勢的傳統 3C 商品外,京東日用品銷售也實現了同比 45% 的增長,遠程醫療業務更是增長了 400%。   另外京東在本季度中還有一組數據特別值得關注:京東本季度的年度活躍用戶已經突破 3.2 億,同比增長 29.9%。二季度京東新增用戶 3000 萬,其中接近 80% 來自下沉市場。   與這組數據匹配的是,京東還在本季度收購了線下連鎖企業五星電器,并計劃未來 5 年內將在在地級市打造 300 家單店面積超過萬平的京東體驗店。   長庚君認為,這次財報披露的數據至少說明幾個問題:首先,京東是疫情受益股,因疫情影響及 618 大促的原因,京東在遠程醫療、日用品銷售上取得了很好的業績。   其次,關于下沉市場,大家過去更多是關注拼多多如何從阿里手中搶用戶,而京東以明修棧道暗度陳倉的方式,從下沉市場也搶到了不少用戶,而且京東也開始以投資并購的方式加快在這一市場的布局。   值得注意的是,京東在財報中并沒有給出未來的業績展望。   這也說明了 618 大促和疫情受益都只是一個短期效應。在下沉市場的爭奪上,京東在加快速度,但是他們并不打算在完成前就給資本市場畫個大餅。前者,決定了京東短期股價走勢,而后者才是決定未來京東股價長遠表現的動力。   簡單來說,就是拼多多在前面搶阿里的用戶,而京東則在后面照葫蘆畫瓢去搶拼多多的用戶。京東未來股價是漲是跌,就看他們能從拼多多手里搶多少市場份額了。   最后,我們來看看阿里巴巴。   上周,阿里對外披露了 2021 財年第一季度業績。(注:以自然年計算,阿里發布的依然是 2020 年二季度數據)   財報顯示,二季度營收 1537.51 億元,同比增長 34%;其中核心業務收入 1333.18 億元,占總收入的 87%。   唯一一組有意思的數據對比是,二季度京東新增用戶 3000 萬,拼多多新增用戶 5510 萬,而阿里新增用戶是 1600 萬。   長庚君認為,這是一份中規中矩的財報,沒什么亮點,但也沒什么能挑刺兒的地方。
來源:博客園
發布時間:2020-08-25 07:00:00
昨天(3月9日)下午,經過三個多小時的較量,韓國棋手李世石宣布向谷歌 人工智能 AplphaGo認輸,意味著 人工智能 獲得了這場人機世紀之戰的第一場勝利。而此前AlphaGo已經以平等條件擊敗了歐洲圍棋冠軍樊麾。 有專家在賽后評論說,AlphaGo的勝利只能算是算法的勝利,因為人工智能目前只是一種算法程序,沒有道德,也沒有情感,更談不上情感。 小編其實認為這并沒有錯,而且就算李世石最后輸給了AlphaGo,這樣不代表人類輸給了機器人。因為這臺打敗了人類最高智能代表的機器,是由人類一手精心打造的,其內部的算法也是眾多科學家一步一步改進得來的。 本文的主題,就是AlphaGo能夠成功擊敗專業棋手的功臣之一:蒙特卡羅樹搜索(Monte Carlo Tree Search)。 蒙特卡羅搜索樹的貢獻,從谷歌AlphaGo的官方網站上就可見一斑。 完美信息博弈 我們知道,圍棋有著明確的游戲規則,其中不存在隨機或運氣成分(如擲骰子或洗牌)。這類游戲都可以歸類為所謂的完美信息博弈(perfect information games)。在完美信息博弈中,每時點參與人采取一個行動,每個參與人在其決策的同時知道以前所有的行動。 因此,理論上我們是可以構建一個包含了所有可能結果的樹,因為游戲中所有的一切都是有規則可循的(fully determined)。幾乎所有的弈棋程序,都是依靠其強大、精確的計算能力,來預測好的下法。 為什么之前的弈棋程序沒有征服圍棋? AlphaGo并不是第一個智能弈棋程序。1997年時,已有超級電腦深藍戰勝國際象棋棋王卡斯帕羅夫的先例。那么為什么深藍沒有乘勝追擊,挑戰圍棋呢?這是因為IBM在比賽結束后就讓深藍退役了。O(∩_∩)O~ 說正經的,這很大程度上與圍棋的極大可能性和此前弈棋程序的算法限制有關。 我們知道,圍棋棋盤橫豎各有19條線,共有361個落子點,雙方交替落子,這意味著圍棋總共可能有10^171(1后面有171個零)種可能性。這超過了宇宙中的原子總數是10^80(1后面80個零)! 而傳統AI一般采用的是暴力搜索方法(深藍就是這樣干的),就所有可能存在的下法構建一個樹。這樣自然根本無法應對圍棋游戲啦。 什么是蒙特卡羅樹搜索? “蒙特卡洛樹搜索”是一種啟發式的搜索策略,能夠基于對搜索空間的隨機抽樣來擴大搜索樹,從而分析圍棋這類游戲中每一步棋應該怎么走才能夠創造最好機會。 一位名叫蘇椰的知乎用戶舉了這樣一個例子,以通俗的語言進行了解釋:假如筐里有100個蘋果,讓我每次閉眼拿1個,挑出最大的。于是我隨機拿1個,再隨機拿1個跟它比,留下大的,再隨機拿1個……我每拿一次,留下的蘋果都至少不比上次的小。拿的次數越多,挑出的蘋果就越大,但我除非拿100次,否則無法肯定挑出了最大的。這個挑蘋果的算法,就屬于蒙特卡羅算法:盡量找好的,但不保證是最好的。 需要說明的是,蒙特卡羅樹搜索并不是只有一種算法,而是一類算法。其中最流行的算法之一就是UCT(upper confidence bounds applied to trees)。 AlphaGo是第一個使用該算法的弈棋程序嗎? AlphaGo不是第一個使用蒙特卡羅樹搜索的弈棋程序。 據senseis.xmp.net網站介紹,第一個使用UCT算法的圍棋程序是MoGo。而且,MoGo在2008年的美國圍棋公開賽上,第一次在19×19的全尺寸棋盤上擊敗了職業選手(當然與AlphaGo不同,這位職業選手讓了9個子)。 AlphaGo是如何使用蒙特卡羅樹搜索的? 雖然“蒙特卡洛樹搜索”在此前一些弈棋程序中也有采用,在相對較小的棋盤中能夠很好地發揮作用,但在正規的全尺寸棋盤上,這種方法的缺陷也體現出來了,因為涉及的搜索樹實在太大了。 但AlphaGo采用了很聰明的策略,利用深度學習的方法降低搜索樹的復雜性。因此“深度學習”和“蒙特卡洛樹搜索”就成為它的兩個關鍵因素。在每個模擬游戲中,AlphaGo都有兩個大腦指引它進行搜索:價值網絡(value network)和政策網絡(policy network)?!罢呔W絡”觀察棋盤布局企圖找到較好的下法,“價值網絡”則預測這樣下的話對方棋手贏棋的可能。結合這兩個建議,AlphaGo最終決定怎樣落子才是勝算最大的。 能用 Python 實現這種樹搜索法嗎? 當然可以,而且一個使用UCT算法實現的Python弈棋程序只有400行代碼左右哦!想要下載試玩的話,就看本期另外一篇推送吧。 參考資料: https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/ http://senseis.xmp.net/MonteCarlo http://senseis.xmp.net/UCT http://tech.huanqiu.com/news/2016-03/8668752.html https://www.zhihu.com/question/20254139 http://googleresearch.blogspot.com/2016/01/alphago-mastering-ancient-game-of-go.html How AlphaGo Works 本文為專欄文章,來自:編程派,內容觀點不代表本站立場,如若轉載請聯系專欄作者,本文鏈接:https://www.afenxi.com/9800.html 。
來源:數據分析網
發布時間:2016-03-11 01:33:00
  8 月 24 日消息,英唐智控今天通過互動平臺回應投資者提問時表示,其收購的先鋒微技術自有的生產設備中包含有日本產的光刻機設備,其收購事項已經獲得日本政府批準。先鋒微技術光刻機主要用于模擬芯片的制造,在滿足其自身生產研發需要的前提下,不排除向具備條件的其他客戶提供產能支持,但公司目前尚未啟動該類型的合作。   或許是受該消息影響,英唐智控今天股價上漲了 4.43%,報收 7.07 元/股。   早在今年 3 月,英唐智控發布公告稱,為實現向上游半導體領域縱向衍生的戰略布局,英唐智控控股重孫公司科富香港控股有限公司與日本先鋒集團簽署《股權收購協議》,雙方同意以基準價格 30 億日元現金(約 1.92 億元人民幣)收購先鋒集團所持有的先鋒微技術有限公司(以下簡稱“先鋒微技術”)100% 股權。   今年 7 月 16 日晚間,英唐智控再度發布公告,宣布收購先鋒微技術 100% 股權的交易已經通過日本政府的審批。   根據公告顯示,先鋒微技術成立于 2003 年,其前身可追溯至母公司先鋒集團于 1977 年成立的半導體實驗室,專注于光盤設備和圖像處理的模擬 IC 和數字 IC 產品的研發生產,經過多年的發展,已經形成了包括光電集成電路、光學傳感器、顯示屏驅動 IC、車載 IC、MEMS 鏡在內的主要產品,并提供 MBE 以及晶圓代工服務。   根據資料顯示,先鋒微技術 2019 年 4 月 1 日至 2019 年 12 月 31 日未經審計凈利潤為-731.16 萬元,較前期出現下滑。   英唐智控指出,先鋒微技術在光電數字信號轉換傳輸領域的長期積累,可將其在光電集成電路、光學傳感器、車載 IC 領域的技術應用轉換至當前快速發展的光通信市場和新能源汽車市場,再通過與公司在國內的光通信行業(如中興、移動、光迅等)及新能源汽車行業(如比亞迪、吉利等)的客戶資源結合,形成公司幫助獲取國內客戶個性化需求、再由先鋒微技術快速響應完成定制化設計、最后交由(代)工廠完成生產制造并實現國內銷售的產業鏈條,將有望迅速打開國內相關領域芯片設計開發市場。   而英唐智控收購先鋒微技術的交易也引發的外界的極大關注。其關鍵原因在于,先鋒微技術旗下擁有數臺日本產的光刻機設備。由此,一些網友和媒體就誤認為先鋒微技術擁有研發制造光刻機的能力。   特別是在今年 5 月,美國對華為的第二輪制裁之后,華為的自研芯片制造就受到了限制。在此背景之下,光刻機等半導體制造所需的核心設備的自主也受到了國內的普遍關注。英唐智控收購先鋒微技術的交易,以及對于先鋒微技術擁有研發制造光刻機的能力誤讀的文章,引發了極大關注。   對此,在今年 5 月,英唐智控也對外澄清表示,“先鋒微技術業務并不涉及光刻機的研發制造,其所擁有的光刻機設備為滿足日常研發生產的需求對外購置,并非荷蘭 ASML 產品?!?   據英唐智控介紹,先鋒微技術擁有的光刻機主要用于模擬芯片的制造。而根據芯智訊了解到的資料也顯示,先鋒微技術目前采用是 0.35 微米工藝制造光電傳感器和 CMOS 傳感器,這也意味著其擁有的光刻機可能也主要適用于 0.35 微米的光電傳感器和 CMOS 處理器。雖然這個制程相對于目前最先進的 5nm 工藝來說,比較落后,但是對于模擬芯片來說,其對于制程工藝的要求要比邏輯芯片低很多。   關于先鋒微技術的光刻機是否會向例如華為等國內企業提供代工服務的問題,英唐智控回應稱,在滿足其自身生產研發需要的前提下,不排除向具備條件的其他客戶提供產能支持,但公司目前尚未啟動該類型的合作。   另外,需要指出的是,雖然先鋒微技術的自有光刻機為日本生產,但是也需要進一步確認其內部的核心器件的技術來源,此外還需要確認先鋒微技術的模擬芯片生產線上是否存在美系半導體設備,如果不含美國技術和設備,那么為華為代工模擬芯片應該是沒有問題的。   編輯:芯智訊-林子
來源:博客園
發布時間:2020-08-25 06:54:00
當我們進行網頁爬蟲時,我們會利用一定的規則從返回的 HTML 數據中提取出有效的信息。但是如果網頁中含有 JavaScript 代碼,我們必須經過渲染處理才能獲得原始數據。此時,如果我們仍采用常規方法從中抓取數據,那么我們將一無所獲。瀏覽器知道如何處理這些代碼并將其展現出來,但是我們的程序該如何處理這些代碼呢?接下來,我將介紹一個簡單粗暴的方法來抓取含有 JavaScript 代碼的網頁信息。 大多數人利用 lxml 和 BeautifulSoup 這兩個包來提取數據。本文中我將不會介紹任何爬蟲框架的內容,因為我只利用最基礎的 lxml 包來處理數據。也許你們會好奇為啥我更喜歡 lxml 。那是因為 lxml 利用元素遍歷法來處理數據而不是像 BeautifulSoup 一樣利用正則表達式來提取數據。本文中我將介紹一個非常有趣的案例——之前我突然發現我的文章出現在最近的 Pycoders weekly issue 147中,因此我想爬取 Pycoders weekly 中所有檔案的鏈接。 很明顯,這是一個含有 JavaScript 渲染的網頁。我想要抓取網頁中所有的檔案信息和相應的鏈接信息。那么我該怎么處理呢?首先,我們利用 HTTP 方法無法獲得任何信息。 import requests from lxml import html # storing response response = requests.get('http://pycoders.com/archive') # creating lxml tree from response body tree = html.fromstring(response.text) # Finding all anchor tags in response print tree.xpath('//div[@class="campaign"]/a/@href') 當我們運行上述代碼時,我們無法獲得任何信息。這怎么可能呢?網頁中明明顯示那么多檔案的信息。接下來我們需要考慮如何解決這個問題? 如何獲取內容信息? 接下來我將介紹如何利用 Web kit 從 JS 渲染網頁中獲取數據。什么是 Web kit呢?Web kit 可以實現瀏覽器所能處理的任何事情。對于某些瀏覽器來說,Web kit就是其底層的網頁渲染工具。Web kit 是 QT 庫的一部分,因此如果你已經安裝 QT 和 PyQT4 庫,那么你可以直接運行之。 你可以利用命令行來安裝該軟件庫: sudo apt-get install python-qt4 現在所有的準備工作已經完成,接下來我們將使用一個全新的方法來提取信息。 解決方案 我們首先通過 Web kit 發送請求信息,然后等待網頁被完全加載后將其賦值到某個變量中。接下來我們利用 lxml 從 HTML 數據中提取出有效的信息。這個過程需要一點時間,不過你會驚奇地發現整個網頁被完整地加載下來了。 import sys from PyQt4.QtGui import * from PyQt4.Qtcore import * from PyQt4.QtWebKit import * class Render (QWebPage): def __init__ (self, url): self.app = QApplication(sys.argv) QWebPage.__init__(self) self.loadFinished.connect(self._loadFinished) self.mainFrame().load(QUrl(url)) self.app.exec_() def _loadFinished (self, result): self.frame = self.mainFrame() self.app.quit() 類 Render 可以用來渲染網頁,當我們新建一個 Render 類時,它可以將 url 中的所有信息加載下來并存到一個新的框架中。 url = 'http://pycoders.com/archive/' # This does the magic.Loads everything r = Render(url) # Result is a QString. result = r.frame.toHtml() 利用以上的代碼我們將 HTML 結果儲存到變量 result 中,由于 lxml 無法直接處理該特殊的字符串數據,因此我們需要轉換數據格式。 # QString should be converted to string before processed by lxml formatted_result = str(result.toAscii()) # Next build lxml tree from formatted_result tree = html.fromstring(formatted_result) # Now using correct Xpath we are fetching URL of archives archive_links = tree.xpath('//div[@class="campaign"]/a/@href') print archive_links 利用上述代碼我們可以獲得所有的檔案鏈接信息,接下來我們可以利用這些 Render 和這些URL鏈接來提取文本內容信息。Web kit 提供了一個強大的網頁渲染工具,我們可以利用這個工具從 JS 渲染的網頁中抓取出有效的信息。 本文中我介紹了一個如何從 JS 渲染的網頁中抓取信息的有效方法,這個工具雖然速度比較慢,但是卻非常簡單粗暴。我希望你會喜歡這篇文章?,F在你可以將該方法運用到任何你覺得難以處理的網頁中。 祝一切順利。 原文鏈接: https://impythonist.wordpress.com/2015/01/06/ultimate-guide-for-scraping-javascript-rendered-web-pages/ 原文作者:Naren Aryan? 譯者:fibears 本文為專欄文章,來自:數據工匠,內容觀點不代表本站立場,如若轉載請聯系專欄作者,本文鏈接:https://www.afenxi.com/9788.html 。
來源:數據分析網
發布時間:2016-03-10 18:00:00
  摘要   數字貨幣不僅僅是一項技術,其所產生的連鎖反應將是我們難以想象的。   過去一周里,「數字人民幣」這個名詞頻繁登上熱搜,引發了眾多小伙伴的激烈討論,在相關內容的評論區中,我也看到很多在發問:數字人民幣和現在的移動支付有什么區別?也有人打趣說:意思錢就是個數字嗎?其實我和大家一樣,也有著相同的疑問。   網絡流傳的農業銀行數字人民幣 App 截圖   事實上早在今年 4 月份,一張農業銀行數字人民幣 App 的「錢包」頁面就在網絡上流傳開來,圖片顯示,數字人民幣 App 擁有「掃碼支付」、「匯款」、「收付款」、「碰一碰」四大功能,似乎與我們日常使用的支付寶和微信相差不大,但比較醒目的是,截圖中有類似人民幣樣式的「電子貨幣」,并且還印有「中國人民銀行」的字樣,讓人一看就不明覺厲。    什么是數字人民幣?   包括我在內的很多人一看到「數字人民幣」這個詞時,就會把它和移動支付劃上等號,其實它們是完全不同的兩種概念,我們每天都使用支付寶、微信只是移動支付平臺而已,至于錢則是放在銀行卡,或者是支付寶、微信的虛擬錢包里的,也就相當于存款。   而央行數字貨幣,則是單獨存儲于數字設備中的數字資產,簡單講就是以手機為載體人民幣,特別要注意的是,數字人民幣是由中國人民銀行(央行)發行的法定數字貨幣,由于數字人民幣特有的法償能力,使用數字人民幣和掏出一張紙幣沒有任何區別,而在交易的時候,數字人民幣也不需要綁定銀行卡、只需要注冊個人的數字錢包即可,這也是數字人民幣與支付寶、微信在使用上的區別。   圖源:微信支付官網   說到這里,很多小伙伴會不理解,既然已經有了移動支付,為什么還要再搞一個數字人民幣?   首先,數字人民幣由央行發行管理,有國家信用在背書;其次,由于數字人民幣的特性,我們使用它時就像使用紙幣一樣,具備著匿名性,相比之下,在支付寶、微信等第三方商業平臺中,個人的交易信息難免會留下痕跡,多少會存在隱私暴露和交易的風險;而對于社會或國家而言,數字人民幣減少了印鈔、物流運輸的成本、而且數字化的管理也更精準、更高效,比如通過數字人民幣,可以及時發現并阻止不法分子的詐騙行為、還有洗錢、貪污、行賄受賄等經濟犯罪的現象。   圖源:視覺中國   其實放眼全球,推進央行數字貨幣的進程并不算快,2020 年 7 月 23 日,全球首枚「央行數字貨幣」才剛剛誕生,這枚貨幣來自立陶宛中央銀行,是立陶宛試點具有國家支持背景的數字貨幣。除此以外,美國、英國、瑞典等國也在評估試點發行央行數字貨幣,而我國則已經在進行小范圍內的封閉試點,等到 2022 年,或許就能夠在北京冬奧場景中使用上數字人民幣了。    支付寶、微信會被淘汰嗎?   如果數字人民幣發行成功,很可能會對目前的移動支付格局產生影響。8 月 19 日,中國國際電視臺(CGTN)針對數字人民幣相關問題采訪了復旦大學泛海國際金融學院的宋思奇教授,宋教授表示,中國市場很特殊,支付寶和微信已經形成了雙寡頭的格局,占據了 95% 的移動支付市場,這并非是一件好事,實際上,對于這些第三方商業公司是否權力過大已經爭論不休,而央行數字人民幣的出現可以改善現有的競爭環境,或者說可以提供更可靠的替代方案。   不過支付寶和微信等第三方平臺并不會因此消失,反而有可能在其中受益,這就要提到數字人民幣的分發機制——雙層運營體系。具體來講就是中央人民銀行(央行)先把數字人民幣兌換給第三方商業銀行或者是其他金融機構,然后再由這些機構兌換給大眾,這也就不難解釋為什么文章開頭的截圖來自中國農業銀行,而除了農行之外,工行、中行和建行也已經展開數字人民幣的內測工作。當然了,支付寶和微信等作為金融機構,同樣可以獲得分發和流通數字貨幣的資格,早在幾個月以前,支付寶就已經先后公開了 5 件有關央行數字貨幣的相關專利,可見支付寶的動作和嗅覺都非常敏感,也可以預見未來我們會在支付寶中使用到數字貨幣。   圖源:滴滴出行官網   更值得關注的是,央行數字貨幣也會和眾多第三方平臺展開合作,7 月 8 日,來自新華社《經濟參考報》的消息稱,滴滴出行與中國人民銀行數字貨幣研究所正式達成戰略合作協議,將共同研究探索數字人民幣在智慧出行領域的場景創新和應用。同時,還有消息稱美團、B 站、字節跳動等也已參與至央行數字貨幣項目中。    數字人民幣「錢景」何在?   前文中提到,數字人民幣目前正在進行小范圍封閉試點,或許在 2022 年的冬奧場景中才能用得上,而我國央行也沒有給出具體的時間表,其實在我看來,推行數字人民幣在技術上來說并不算困難,但是真正落地一定少不了多個環節的測試和檢驗,放眼全球,我國已經成為移動支付的領頭羊,而在數字貨幣方面也很早便開始了布局,中國人民銀行行長易綱此前在新華社的報道中表示,我國央行從 2014 年就展開了數字貨幣的研究工作,現在已經取得了積極進展。   不過特別要注意的是,數字貨幣的火熱也給一些不法分子制造了可乘之機,近期就有個別機構冒用央行名義推出了所謂的數字人民幣交易平臺,這些平臺都很有可能涉及到詐騙和傳銷,作為個人來說,一定要提高風險意識,防止上當受騙。當然了,網絡上也謠傳著一些似乎很有依據的傳言,比如數字人民幣降低了發行貨幣的門檻,會導致人民幣濫發,造成通貨膨脹,事實上當你讀懂這篇文章,懂得數字人民幣也受央行管控之后,這類謠言自然就不攻自破了。   數字人民幣作為一項新技術,它的發展和普及不會一蹴而就,必然是一個螺旋式上升的過程,這幾年間移動支付的技術已經深刻影響了我們的生活,而數字人民幣還將在此基礎上附加國家信用,現在看來,我們感知到的數字人民幣也許只是一項新的技術,但在數十年后,數字人民幣很有可能會影響到整個社會的商業形態、其產生的連鎖反應一定是現如今難以想象的。   本文由極客公園 GeekPark 原創發布,轉載請添加極客君微信 geekparker。
來源:博客園
發布時間:2020-08-25 06:52:00
最近有一些文章提出與年齡相關的問題:“ 嶄露頭角的年輕數據科學家們是學習R語言還是Python更好 “ 答案似乎都是“視情況而定”,在現實中沒有必要在R和 Python 中做出選擇,因為你兩個都用得到。 它被稱為RPy2: http://rpy.sourceforge.net/rpy2/doc-2.1/html/introduction.html 什么是”數據科學” 在談論RPy2之前,先來說一下“數據科學”,我要說的是“數據科學”是一個奇怪的詞。因為幾乎所有的科學都是“數據科學”?!盁o數據科學”則是完全不同的領域:哲學?!皵祿茖W”是一門通過系統觀察,對照實驗,貝葉斯推理的開放試驗理念的科學學科。 “數據科學”的目標是從數據中得出有效的統計推論。標簽“數據”是指數據用于做什么并不重要,但這是錯誤的:它是難以且不可能做到科學的在沒有得到數據的詳細信息,得去了解系統的弱點并生產出來,智能、靈敏的應對非理想好數據。 任何有趣的數據集至少有以下一些特性:缺失值,異常值和噪聲。缺失值:顧名思義就是缺失的值。異常值:離群怪異的事件,由于某種原因或其他的事件其值遠遠的超出合理界限。噪聲的是,從所測量的值的隨機(或非隨機的)影響的著結果的分布。 一個良好的測量分布, 異常值和噪聲在噪聲不同下一般有較容易理解的因素,而異常值通常是很少發生的,我們不能通過分布很好的理解。 對于處理這類事情R,Python和RPY的都是有用的工具。 為什么R非常適合數據科學 R語言 對有經驗的統計分析師來說是非常輕量級. 它由科學家創造,對絕大多數的數據管理任務來說都非常輕松。特別適合以下幾種數據管理任務: 標記數據 填充遺漏值(譯者注:比如10行數據每行固定9列,但是第三行卻只有5列數據,可以通過R的函數自動補全另外的5列值) 過濾 R語言對標記數據的支持非常友好. R語言的“data frame”概念,使得通過對數據列和數據行頭來分割組合數據、標記數據,然后以純數值的矩陣數據交給算法處理. 而傳統的數據科學開發語言,如Python對數據的處理都需要開發者自己完成,需要消耗開發者 大量時間且容易出錯. 處理或丟棄遺漏值、離群值(譯者注:極值,如最大值、最小值)在數據中是非?;镜匾娜蝿? 某些情況下,本來是有利的數據,卻因為測量誤差等原因變成了不利、反對的數據。(譯者注:比如越趨近于1才表示越可能是.)你如何處理這些事情可以對你的分析結果產生很大的影響。 R語言提供了豐富的算法來處理長期以來科學實踐中出現的各種數據有關問題,雖然這些算法仍然需要自己去嘗試和判斷選擇,以選擇最恰當的數據處理算法. RPy2: 架起R語言與Python之間的橋梁 Pandas,Python的 數據分析 庫,目前它已經有很多相同功能,但是RPy2創造了一條很好的從R語言到Python的遷移路線,它讓你在學習Python的時候,把R語言作為一個附屬部分來學習,對于很多有豐富實驗開發經驗的分析師會使用R語言,當他們想把算法融入一個Python應用程序,并分發給用戶時,他們也可以使用RPy2。 執行這種遷移的能力,而不離開R語言的概念模型是很有價值的,但從另一個角度來說,這也是一個限制,能夠使用一個真正的通用編程語言,如:Python,來包裝概念模型,并使得這個用戶友好的應用程序有多種復雜的附加功能(打印,網絡,USB支持,等等)是至關重要的。 舉例來說,我已經使用了這種方法來創建讀取傳感器數據的Python應用,通過RPy2處理,以各種方式顯示給客戶,我不知道怎么用R語言讀取傳感器數據,應該是有某種方法的。而Python已經做好了我需要的模塊,即使沒有也非常容易擴展。 如果你還不知道R語言,我推薦你學習Python并且使用RPy2來訪問R語言的函數。你學習一種語言獲得了兩種能力。一旦你學習過RPy,再轉到純R語言也不是什么大問題,但是,你想要反過來就沒那么容易了。 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2016-03-09 23:25:00
摘要:上周六,總理在大會堂作政府工作報告,全球媒體矚目。每年都會有媒體對報告中的高頻詞匯進行梳理,我們也可以嘗試利用 Python 和分詞jieba來自己分析一下。 我們首先來看國內部分媒體的梳理結果。據小編簡單了解,已知對工作報告高頻詞匯進行梳理的媒體包括法制日報和新華網。 國內媒體梳理的高頻詞 下面是 法制日報公布的十大高頻詞 。 高頻詞 詞頻 1978年以來政府工作報告中的提及總數 發展 151 4828 經濟 90 4449 改革 74 2758 建設 71 3274 社會 66 3402 推進 61 1096 創新 61 414 政策 52 1231 企業 加強 48 41 2304 2238 下面是 新華網數據新聞部統計的高頻詞匯 。 新華網的信息圖其實有些含糊不清,有些詞頻不知道到底是2016年還是2015年的,但這里并不是我們關注的重點。 另外,新華網和法制日報得出的數據似乎有些出入,雖然并不大。那么,到底那家的數據是準確的呢? 接下來,我們就自己來計算一下報告中的高頻詞匯吧。 準備工作 我們需要從網上爬取政府報告的全文,這里小編選擇 中國政府網發布的報告頁面 。為此,我們需要安裝requests和BeautifulSoup4這兩個常用第三方庫。 pip requests beautifulsoup 獲取了報告文本之后,接下來需要對文本進行分詞。我們選擇號稱“做最好的中文分詞組件”的 jieba中文分詞庫 。 pip install jieba 這里提示一下,這三個庫都支持Python 2和Python 3。但是在Python 2下,很容易就碰到編碼問題,最后打印出的中文無法正常顯示。因此,建議使用Python 3執行該腳本。 安裝好依賴包之后,我們在腳本 analyze_report.py 的頂部導入它們。 import jieba import requests from bs4 import BeautifulSoup 文本提取 首先,我們從網上抓取政府工作報告的全文。我將這個步驟封裝在一個名叫 extract_text 的簡單函數中,接受url作為參數。因為目標頁面中報告的文本在所有的p元素中,所以我們只需要通過BeautifulSoup選中全部的p元素即可,最后返回一個包含了報告正文的字符串,簡單粗暴! def extract_text (url) : """Extract html content.""" page_source = requests.get(url).content bs_source = BeautifulSoup(page_source) report_text = bs_source.find_all( 'p' ) text = '' for p in report_text: text += p.get_text() text += '\n' return text 利用jieba分詞,并計算詞頻 然后,我們就可以利用jieba進行分詞了。這里,我們要選擇全模式分詞。jieba的全模式分詞,即把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義。之所以這么做,是因為默認的精確模式下,返回的詞頻數據不準確。 分詞時,還要注意去除標點符號,由于標點符號的長度都是1,所以我們添加一個len(word) >= 2的條件即可。 最后,我們就可以利用Counter類,將分詞后的列表快速地轉化為字典,其中的鍵值就是鍵的出現次數,也就是這個詞在全文中出現的次數啦。 def word_frequency (text) : from collections import Counter words = [word for word in jieba.cut(text, cut_all= True ) if len(word) >= 2 ] c = Counter(words) for word_freq in c.most_common( 10 ): word, freq = word_freq print(word, freq) 執行腳本 兩個函數都寫好之后,我們就可以愉快地執行啦。 url_2016 = 'http://www.gov.cn/guowuyuan/2016-03/05/content_5049372.htm' text_2016 = extract_text(url_2016) word_frequency(text_2016) 最后的結果如下: 高頻詞 次數 發展 152 經濟 90 改革 76 建設 71 社會 67 推進 62 創新 61 政策 54 企業 服務 48 44 ## 小結 從上面的結果可以看出,新華網發布的高頻詞統計數據與我們自己的分析最為接近。當然,新華網的里面少了一個高頻詞:推進。 如果有朋友想要驗證結果的話,可以自己把報告全文復制到word里,然后查詢下相關的高頻詞即可,比如下面這樣: 本文為專欄文章,來自:編程派,內容觀點不代表本站立場,如若轉載請聯系專欄作者,本文鏈接:https://www.afenxi.com/9684.html 。
來源:數據分析網
發布時間:2016-03-07 22:47:00
  一年一度的傳統七夕佳節正在到來,趁此良機辦理終身大事的男男女女自然不在少數,但一如既往,無論線下還是網上,都要抓緊了。   支付寶溫馨提醒大家, “市民中心”服務板塊可以辦理結婚登記、落戶、購房等“結婚一條龍服務”,但需要盡快預約,不少地方的氣息結婚登記已經爆滿了。   比如浙江,七夕當日全天的登記預約都已經滿了。   另外,支付寶產品經理還做了一個特別的七夕作死小彩蛋, 上支付寶搜索“答題紅包”,可以自行設置問題和答案,對方答對了才能領紅包。   想玩死對方或者玩死自己,就看你的了。
來源:博客園
發布時間:2020-08-25 06:51:00
摘要:用 Python 做 文本挖掘 的流程 收集數據 數據集 。如果是已經被人做成數據集了,這就省去了很多麻煩事 抓取。這個是 Python 做得最好的事情,優秀的包有很多,比如 scrapy , beautifulsoup 等等。 預處理(對 這里 的高質量討論結果的修改,下面的順序僅限 英文) 去掉抓來的數據中不需要的部分,比如 HTML TAG,只保留文本。結合 beautifulsoup 和正則表達式就可以了。 pattern.web 也有相關功能。 處理編碼問題。沒錯,即使是英文也需要處理編碼問題!由于 Python2 的歷史原因,不得不在編程的時候自己處理。英文也存在 unicode 和 utf-8 轉換的問題,中文以及其他語言就更不用提了。 這里 有一個討論,可以參考,當然網上也有很多方案,找到一個適用于自己的最好。 將文檔分割成句子。 將句子分割成詞。專業的叫法是 tokenize。 拼寫錯誤糾正。 pyenchant 可以幫你?。ㄖ形木蜎]有這么些破事?。?POS Tagging。nltk 是不二選擇,還可以使用 pattern 。 去掉標點符號。使用正則表達式就可以。 去掉長度過小的單詞。len<3 的是通常選擇。 去掉 non-alpha 詞。同樣,可以用正則表達式完成 W 就可以。 轉換成小寫。 去掉停用詞。Matthew L. Jockers 提供了一份比機器學習和自然語言處理中常用的停詞表 更長的停詞表 。 中文的停詞表 可以參考這個。 lemmatization/stemming。nltk 里面提供了好多種方式,推薦用 wordnet 的方式,這樣不會出現把詞過分精簡,導致詞丟掉原型的結果,如果實在不行,也用 snowball 吧,別用 porter,porter 的結果我個人太難接受了,弄出結果之后都根本不知道是啥詞了。 MBSP 也有相關功能。 重新去掉長度過小的詞。是的,再來一遍。 重新去停詞。上面這兩部完全是為了更干凈。 到這里拿到的基本上是非常干凈的文本了。如果還有進一步需求,還可以根據 POS 的結果繼續選擇某一種或者幾種詞性的詞。 Bag-of-Words ! nltk 和 scikit.learn 里面都有很完整的方案,自己選擇合適的就好。這里 如果不喜歡沒有次序的 unigram 模型 ,可以自行選擇 bi-gram 和 tri-gram 以及更高的 n-gram 模型。nltk 和 sklearn里面都有相關的處理方法。 更高級的特征。 TF-IDF。這個 nltk 和 sklearn 里面也都有。 Hashing ! 訓練模型 到這里,就根據自己的應用選擇合適的學習器就好了。 分類,情感分析等。 sklearn 里面很多方法,pattern 里有 情感分析的模塊 ,nltk 中也有一些分類器。 主題發現 NMF (Online) Latent Dirichlet Allocation word2vec 自動文摘。這個自己寫吧,沒發現什么成型的工具。 Draw results Matplotlib Tag cloud Graph 說明:在預處理部分僅僅針對英文的情況,由于中英文在分詞上是不同的機制,所以在處理中文的時候需要根據情況進行,個人經驗是在去停詞之前分詞。這部分有待完善。 中文分詞。 jieba 或者 Stanford (Chinese) Word Segmenter 。jieba 是純 Python 寫的,Stanford 的可以通過 nltk 調用, 復旦 NLP 也可以用 Python 調用。 來源:知乎 作者:肖智博 鏈接:http://zhuanlan.zhihu.com/textmining-experience/19630762 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2016-03-06 20:30:00
  1995 年的 8 月 24 日,微軟正式推出了 Windows 95 系統,迄今為止正好 25 周年了,現在來看 Win95 界面早已落伍,但它可是微軟操作系統史上的里程碑,口碑及銷量都是雙贏。   Win95 系統上有太多第一了,首次將 DOS 和 Windows 系統集合在一起,首次圖形化界面 ,首個 32 位系統,首次集成 IE 瀏覽器, 首次帶來了開始菜單、任務欄、文件管理器等,就連空當接龍都是首次。   為了推廣 Win95 系統,微軟也是下了血本了, 當年投入的營銷費用高達 3 億美元 ,絕對是天價。   此外,微軟還花了 300 萬美元找滾石樂隊寫了一首歌——Start me Up,成為 Win95 的主題曲。   最終的結果也是驚人的,Win95 一上市就引發了搶購潮,售價 210 美元的它第一周就賣出 100 萬份拷貝,第一年內賣出了整整 4000 萬份,要知道當年全球 PC 銷量有不過 6000 萬部。   Win95 的銷量后來 Windows XP 打破,跟現在當然也不可能同日而語,但是 Win95 在微軟操作系統史上的地位是無可置疑的。   對國人來說,1995 年還沒多少人能用上電腦,當年但凡能用上 Win95 的要么家里比較有錢,要么就是工作性質,如今這些人也是社會中堅了,大家還能記得多少?
來源:博客園
發布時間:2020-08-25 06:50:00
  近日,據韓聯社報道,三星電子公司周六證實,其兩名工作于韓國京畿道華城晶圓廠生產線的員工新冠病毒(COVID-19)檢測呈陽性。   據三星介紹,其中一名員工于上周五出現發燒和咳嗽等癥狀,在三星內部的診所接受了新型冠狀病毒測試后,顯示檢測結果呈陽性。該員工從 8 月 16 日至 19 日休假,僅周三和周四參與值班。而另一位員工在上周四發現癥狀,但直到周五才做了檢測,檢測結果同樣呈陽性。   三星解釋稱,當局尚未確定兩名雇員的確切傳播途徑?!斑@兩名員工值班時配備各種安全設備,例如口罩,防塵服和防塵鞋。此外,半導體生產線內部的微塵過濾及通風系統也是最高水準。因此,病毒在內部傳播的可能性很小?!?   三星表示,員工感染不太可能影響其芯片制造業務。   但是,目前韓國新冠疫情卻不容樂觀。據韓國中央防疫對策部公布的數據顯示,截至 8 月 23 日凌晨零時的 24 小時內,共新增 397 人確診,創下韓國 3 月 7 日以來單日新高。   8 月 21-23 日單日新增病例連續 3 天在 300 例以上,截至 24 日凌晨零時,再度新增 266 例新冠肺炎確診病例,累計 17665 例。雖然新增確診人數有所下滑,其有分析稱是因為周末檢測人數減少,因此并不代表疫情降溫。   從目前韓國累計確診人數最多的前三個城市來看,分別是首爾、京畿道和仁川。   三星的 DRAM 產能主要集中在韓國京畿道的華城(Fab12、Fab13、Fab15、Fab16、Fab17)、平澤(P1、P2)兩地,NAND Flash 產能也有約 75% 位于韓國本土(Fab12、Fab16、Fab17、P1、P2),另有 25% 的產能則位于西安(西安一期、二期)。   根據以上產線 2019 四季度的月均投片量預估,三星在本土的 DRAM 與 NAND Flash 總產能水平約為 675kwpm,占其總產能的比重達到了 83%。而這其中,三星華城工廠的 DRAM 和 NAND Flash 產能更是占據了大半。   根據 TrendForce 的數據顯示,今年一季度三星在全球 DRAM 市場市場份額達 44.1%,在 NAND Flash 市場的份額也達到了 33.3%。   顯然,如果三星華城工廠受到了疫情的影響導致停產,那么可能會對整個 DRAM 和 NAND Flash 市場帶來很大的影響。   不過,正如三星所說,晶圓廠內部工作區都是需要佩戴口罩,穿防塵服和防塵鞋的,同時內部的微塵過濾及通風系統也是要求極高。   比如,12 吋的晶圓廠對于空氣的潔凈度要求會達到每立方米空氣中含有 0.1 微米(千分一毫米)微粒數一般不能超過 100 粒,更大顆?;径紩煌L系統過濾掉。而新冠病毒顆粒的直徑大小則約為 0.125 微米。顯然,在存儲廠工作區內部的形成新冠病毒傳播的可能性不大。   此外,目前晶圓廠內部的自動化生產程度已經非常的高,即便是三星的工廠爆發小規模的新冠疫情,也大概率不會對其存儲芯片生產產生大的影響。   值得注意的是,雖然今年上半年以來,由于遠程辦公以及數據中心對于 DRAM 和 NAND Flash 需求的增長,刺激了 DRAM 和 NAND Flash 價格回暖。但是,對于接下來的存儲市場,一些存儲大廠并不看好。   比如,內存大廠美光日前就表示,需求前景惡化,下一財季(9 至 11 月))的營收很難達到預定目標。   另外,由于美國近期再度升級對于華為制裁,使得三星、SK 海力士等存儲廠商的 DRAM 及 NAND Flash 芯片可能都無法繼續向華為供應。   此外,隨著長鑫存儲的 DRAM 芯片以及長江存儲的 128 層 3DNAND 芯片的量產和出貨放量,以及國內的國產替代風潮的影響,這些都進一步加劇了整個市場消化存儲芯片廠商的庫存及產能的壓力。   TrendForce 也預測,第三季度 DRAM 價格恐反轉向下,出現量平、價跌走勢,原廠獲利恐面臨壓力;   同時,NAND Flash 第三季度供過于求比例為 2.6%,加上先前受疫情影響所累積的庫存量遞延至今,造成價格開始走跌,第四季供過于求比例將進一步擴大,后續價格走勢將更嚴峻。
來源:博客園
發布時間:2020-08-25 06:49:00
摘要:當你在一個城市,穿越大街小巷,跑步跑了幾千公里之后,一個顯而易見的想法是,如果能把在這個城市的所有路線全部畫出來,會是怎樣的景象呢? 文章代碼比較多,為了不吊人胃口,先看看最終效果,上到北七家,下到南三環,西到大望路,東到首都機場。二環32公里,三環50公里,這是極限,四環先暫時不考慮了。。。。 1.數據來源:益動GPS 首先需要原始位置信息,手機上有眾多跑步軟件,但它們共同的問題是不允許自由導入導出(可能是為了防止用戶脫離吧)。因此有一塊智能運動手表應該是不二之選。我的是Garmin Fenix3,推薦一下: 與此同時,益動GPS算是業界良心了,能夠同步咕咚,Garmin手表,悅跑圈的數據,因此我將其作為一個入口,抓取所有的GPS數據。 至于如何同步,可參考網站上的相關介紹,下面是我登錄該網站后的截圖: http://edooon.com/user/5699607196/record/15414378 隨便點進去以后,就可以看到導出路線的按鈕: 無比坑爹的是,它不提供批量導出的按鈕,幾百條記錄,依次導出都累死了。于是考慮用代碼來自動化吧。 2. 獲取益動網站上的數據 登錄之后,可以看出它是動態加載,當滾輪滾到最下時,自動加載后面的內容。本來是應該嗅探和分析http請求的。后來我懶惰了,采取折中方案,拖到底,全部加載完畢后,保存了當前的html文件。 接下來就是解析這個Html,基本上是通過XPath的來做的。有經驗的同學看了下圖就都明白了: 圖中高亮的部分,就是要下載gpx文件的實際地址。我們將其保存在urllist中。同時,元數據被保存在json文件里。 folder = u'D:/buptzym的同步盤/百度云/我的文檔/數據分析/datasets/rungps/';cookie='JSESSIONID=69DF607B71B1F14AFEC090F520B14B55; logincookie=5699607196$6098898D08E533587E82B33DD9D02196; persistent_cookie=5699607196$42C885AD38F59DCA407E09C95BE1A60B; uname_forloginform="buptzym@qq.com"; __utma=54733311.82935663.1447906150.1447937410.1456907433.7; __utmb=54733311.5.10.1456907433; __utmc=54733311; __utmz=54733311.1456907433.7.3.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; cookie_site=auto'userid='5699607196';f = codecs.open(folder + 'desert.htm', 'r', 'utf-8');html = f.read();f.close();root = etree.HTML(html)tree = etree.ElementTree(root);listnode=tree.xpath('//*[@id="feedList"]');numre=re.compile(u'騎行|跑步|公里|,|耗時|消耗|大卡');urllists=[]records=[];for child in listnode[0].iterchildren(): record={}; temp=child.xpath('div[2]/div[1]/a[2]') if len(temp)==0: continue; source= temp[0].attrib['href']; record['id']=source.split('/')[-1]; info=temp[0].text; numinfo= numre.split(info); if len(numinfo)<6: continue; record['type']= info[0:2]; record['distance']= numinfo[1]; record['hot']=numinfo[6]; urllists.append('http://edooon.com/user/%s/record/exporttype=gpx&id=%s' % (userid, record['id'])); 值得注意的是,因為下載時需要cookie,因此讀者需要將自己在益動GPS的userid和登錄的cookie都替換掉(這種網站不值得為它開發自動登錄)。 接下來就是下載的過程,獲取導出數據按鈕的URL的XPath,構造一個帶cookie的請求,然后保存文件即可,非常容易。 opener = urllib.request.build_opener()opener.addheaders.append(('Cookie', cookie));path='//*[@id="exportList"]/li[1]/a';for everyURL in urllists: id = everyURL.split('=')[-1]; print(id); url='http://edooon.com/user/%s/record/%s' % (userid, id); f = opener.open(url); html = f.read(); f.close(); root = etree.HTML(html) tree = etree.ElementTree(root); fs = str(tree.xpath(path)[0]); if fs is None: continue; furl = 'http://edooon.com/user/%s/record/%s' % (userid, fs); f = opener.open(furl); html = f.read(); f.close(); filename=folder+'id'+'.gpx'; xmlfile = codecs.open(filename, 'wb'); xmlfile.write(html); xmlfile.close(); 之后,我們便保存了大約300多個gpx文件。 3. 解析gpx數據 所謂gpx數據,是一種通用規范的GPS數據格式,詳細的資料可自行搜索。 我們需要使用python的gpx解析器, gpxpy是個好選擇,使用 pip3 install gpxpy 即可安裝。 gpxpy提供了豐富的接口,當然為了統計,我們只需要提取一部分數據: def readgpx(x): file= open(dir+x+'.gpx','r') txt=file.read() gpx=gpxpy.parse(txt) mv=gpx.get_moving_data() dat= {'移動時間':mv.moving_time,'靜止時間':mv.stopped_time,'移動距離':mv.moving_distance,'暫停距離':mv.stopped_distance,'最大速度':mv.max_speed}; dat['總時間']=(gpx.get_duration()) dat['id']=str(x) updown=gpx.get_uphill_downhill() dat['上山']=(updown.uphill); dat['下山']=(updown.downhill) timebound=gpx.get_time_bounds(); dat['開始時間']=(timebound.start_time) dat['結束時間']=(timebound.end_time) p=gpx.get_points_data()[0] dat['lat']=p.point.latitude dat['lng']=p.point.longitude file.close() return dat readgpx函數會讀取文件名x,并將一個字典返回。并得到類似下面的一張表: 因為我們只需要繪制北京的區域,因此需要一個坐標表達式篩掉北京之外的地區。篩選代碼使用了pandas,在附件里有更詳細的代碼。 exceptids=詳細[(詳細.lng<116.1)|(詳細.lng>116.7)|(詳細.lat<39.9)|(詳細.lat>40.1)].id def filtercity(r): sp=r.split('/')[-1].split('.') if sp[1]!='gpx': return False; if sp[0] in exceptids.values: return False; return True; bjids= [r for r in gpxs if filtercity(r)] 這樣,我們就將所有在北京完成的運動數據篩選了出來。 4.繪制GPS數據 反復造輪子是不好玩的,繪制gpx已經有比較強大的庫,地址在 http://avtanski.net/projects/gps/ 很不幸,這個庫使用Perl作為開發語言,并使用了GD作為視覺渲染庫。我花費了大量的時間,在安裝GD上面。 Ubuntu默認安裝Perl, GD是需要libgd的,libgd卻在官網上極難下載,下載后卻又發現版本不對,這讓我在國外互聯網上遨游了好幾個小時,都要死掉了。。。到最后,我才發現,安裝libgd庫只要下面這一步就可以了: apt-get install libgd-gd2-perl 我覺得這就是apt-get方式坑爹的地方,apt get gd 或者libgd根本找不到,如果不去查,誰知道這么寫??! 至于Perl的CPan管理工具,哎,不說了都是淚。 接下來下載gd 2.56,解壓之后, perl ./Makefile.PL make make install 即可 這份gpx繪制庫是這么介紹自己的: This folder contains several Perl scripts for processing and plottin GPS track data in .GPX format. 當然我們不廢話,把所有的gpx數據拷貝到sample_gpx文件夾下,然后華麗麗的運行 ./runme.sh 如果沒有問題的話,應該是下面這樣: 我假設各位讀者對bash都已經很熟悉了,更多的需求可以查看runme.sh。 最后得到的結果如下圖: 當時看到這個結果,我都驚呆了!這是自己跑了2000公里左右的結果,北京三環內(主要集中在長安街以北)主要的道路都跑遍了,朝陽公園,天壇公園,尤其北三環和北土城路(10號線北段)被我各種虐。每一段白線都是一段故事,每一個點都是我的一個腳印??! 5.總結 這文章寫得顯然不夠詳細,遠遠沒有hand by hand。而且并沒有提供更多的 數據分析 (顯然這些工作我都做了)不過相信跑步的程序員一定都很厲害,我這就權作拋磚引玉了。 其實完全可以做成一個web服務,跑友們上傳自己的跑步軟件的id,就可以自動渲染出各種漂亮的跑步路徑和分析圖,應該會很有意義吧! 這件事情花費了我七八個小時,簡直吐血,大量的時間用在了如何安裝GD上,而不是下載數據上。教訓告訴我,一定要讀安裝包里自帶的說明文檔,因為庫和庫之間的版本不同,因此可能造成版本地獄,到時候新版本卸載不了,老版本沒法用的時候可別說我沒提醒??! 值得一提的是,益動gps下載的gpx文件不帶換行符,這導致gpx_disualization庫無法解析它(這貨正則表達式寫錯了),我懶得再去動perl正則,于是通過替換增加了換行符。 GD還需要libpng等一眾perl庫,在附件里都有提供下載。 附件 是GD庫和爬取所有gpx數據的python3代碼。 本文采用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「 我們 」留言處理。
來源:數據分析網
發布時間:2016-03-06 19:30:00
女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡