营销策划

    今日:62| 主题:43014
收藏本版 (15)
网络、PC端、移动端的营销、策划实战和资讯。

[其他] 人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

[复制链接]
最熟悉的陌生人 投递于 2016-10-19 08:36:46
412 9
人工智能这把火已经烧到了国家战略层面,连美国总统和政府机构也卷了进来。上周四,奥巴马主持白宫前沿峰会,展望美国在未来 50 年的发展。峰会中,白宫发布报告《 国家人工智能研究与发展策略规划 》。相关情况,大家可以参考《连线》杂志的总统专访( Barack Obama on Artificial Intelligence, Autonomous Cars, and the Future of Humanity ) 。
  这两天,自媒体没少炒作这个报告;我自己呢,倒是特别地对这个报告中的两张趋势图感兴趣。报告中说,从 2013 年到 2015 年,SCI 收录的论文里,提到“深度学习”的文章增长了约六倍,同时强调,“按文章数计算,美国已不再是世界第一了。”
  美国不是世界第一?谁是世界第一呢?来看报告中的两张趋势图:
   

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧-1-营销策划-中国人,美国总统,人工智能,奥巴马,数据库

  上图是每年 SCI 收录的文章里,提到“深度学习”或“深度神经网络”的文章数量变化趋势,同时按国家做了区分。数据本身是从 Web of Science 核心数据库里查询得到的。
   

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧-2-营销策划-中国人,美国总统,人工智能,奥巴马,数据库

  第二张图和第一张图其他条件一样,只是增加了一个“文章必须至少被引用一次”的附加条件。也就是说,第二张图统计的文章数,是被引用过的“有效文章数”,相对来说更合理一些。
  两张图里,中国都在 2014 年和 2015 年超过了美国(以及其他所有第二梯队的国家),居于领跑者的位置。
  问题来了,在 AI 研究领域,中国人真有这么强吗?

  从这些年的直觉看,中国人 / 华人在人工智能领域里的大牛比比皆是,吴恩达、孙剑、杨强、黄广斌、马毅、张大鹏 ……随口可以说出一大串,我自己在 Google 的研究团队,微软研究院等地亲眼看到的,也到处是中国人、华人的面孔。但这只是直观感受。整体来看,中国人 / 华人所做的科研贡献到底有多重要,对人工智能的推动作用到底有多大?白宫报告里的统计是不是科学、合理?
  其实,对美国国家战略规划里的统计,我自己是有几个疑问的,主要包括:
  
       
  • 直接搜索关键字“深度学习”、“深度神经网络”,真的能涵盖这些年人工智能领域的所有科学研究进展?像机器人、智能控制、机器视觉、无人驾驶等领域里,没有提及深度学习的文章眼见还有不少。严格按关键词匹配会漏掉多少相关文章?是否影响统计结果?   
  • “文章至少被引用一次”,比较科学,但好像还远远不够。这种统计,真的不需要考虑 SCI 的影响因子吗?不考虑的话,会混进多少较差期刊上发表的比较水的论文?这些数据会不会被国内研究机构靠 SCI 引用数来评职称的风气污染?   
  • 在全球化时代,按国家统计,会不会有明显偏差?白宫报告没有提到被统计的文章是如何归入不同国家的。如果按作者发表文章时的所在机构,那大量在国外机构访问的中国学者会不会被算成外国人?中国人和外国人合写的文章该如何统计?如果按期刊所属国家和地区,那不同国家间的期刊水平(影响因子)差异是不是会让统计结果带有偏见?  
  基于此,我也想自己去做个统计。
  统计前,给自己设了几条原则:
  
       
  • 从期刊的 SCI 影响因子出发,只统计影响因子高的顶尖期刊。   
  • 从 Web of Science 主题词出发,涵盖人工智能相关的所有科研领域,而不仅是深度学习方面的文章。   
  • 文章要求至少被引用一次。   
  • 关注对象是华人,而不是用国家分类的办法去比较中国和外国——这个是我自己的选择,因为今天的学术界,国家间的合作和交流已不可忽视。类似吴恩达这样的外籍华人,其实也在为中国的人工智能发展做贡献,百度首席科学家嘛(有人说吴恩达是越南裔,我没找到出处,只知道他父母是香港人;也许有机会时,当面问问 Andrew?)。与其限定国家,不如从整体上看一看,地球上的华人科学家、研究者群体,到底有多厉害。   
  • 关注时间范围是 2006 到 2016 年,跨度 10 年左右——因为许多人说,这一波人工智能大潮是从 2006 后的几年时间里,才开始真正兴起的。  
  我的统计结果

  先说说我的统计结果,一会儿会在附录一中讲讲我用的统计方法。
  来看下 2006 到 2016 年间华人作者的平均贡献:
   

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧-3-营销策划-中国人,美国总统,人工智能,奥巴马,数据库

  在 2006 到 2016 年的时间段里,近两万篇最顶级的人工智能文章中,由华人贡献的文章数和被引用数,分别占全部数字的 29.2%和 31.8%。近十年,华人用五分之一左右的作者人数,平均贡献了三成的顶级 AI 研究文章和被引用数。统计角度,这已经是超出平均水平的科研贡献了。
  但平均数并不能看出华人科学家、研究者在最近几年的发力程度。来看 2006 到 2015 年间,华人贡献的文章数和被引用数的变化趋势:
   

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧-4-营销策划-中国人,美国总统,人工智能,奥巴马,数据库

  2006 到 2015 年间,华人作者参与的顶级 AI 论文,占全部顶级 AI 论文数量的比例,从 23.2%逐年递增到 42.8%。而华人作者参与的顶级 AI 论文被引用次数,占全部顶级 AI 论文被引用次数的比例从 25.5%逐年递增到 55.8%(2016 年数据较少,未用于趋势比较)。
  也就是说,即便只统计顶级出版物里的顶级文章,中国人 / 华人在人工智能领域的贡献,在发展趋势上也和白宫报告中揭示的规律如出一辙——无论从哪个角度来说,中国人 / 华人正在人工智能领域里发挥举足轻重的作用,而且,从 2014 年,2015 年开始,中国人 / 华人已经处于人工智能研究的领先地位,占据了人工智能科研世界的半壁江山!
  个案分析

  会有人觉得这个统计很不可思议吗?这个结果会出乎很多人意料吗?我们还可以拿一个更具体的例子,来深入分析一下。
  在顶级人工智能期刊里,我来举个大名鼎鼎的例子吧:IEEE 模式分析与机器智能汇刊(IEEE Transactions on Pattern Analysis and Machine Intelligence,简称 PAMI),2015 年影响因子 6.077,高到没朋友,想往这里投稿的同学可能都知道被接受和发表的难度有多恐怖。
  我从《IEEE 模式分析与机器智能汇刊》里按引用数选出 2006 到 2016 年间的前 500 篇论文,下面是这 500 篇论文的引用数分布情况:
   

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧-5-营销策划-中国人,美国总统,人工智能,奥巴马,数据库

  其实很恐怖的,前 500 篇文章最高引用数 2715,最低引用数 41——真顶级期刊!普通期刊难以望其项背呀。
  那么,这 500 篇最顶级的人工智能论文里,华人科学家、研究者的贡献如何呢?先说几个数字:500 篇顶级文章的作者一共 1220 人,其中华人科学家、研究者 316 人,占 25.9%。所有作者单独累加计算的被引用数总和是 231361 次,其中,华人科学家、研究者被引用数总和是 63846 次,占 27.6%。如果单看 2014 年(当年华人的文章数、引用数均较高)的数据,华人科学家、研究者被引用数占 51.8%,超过了半数。
   

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧-6-营销策划-中国人,美国总统,人工智能,奥巴马,数据库

  如果只看《IEEE 模式分析与机器智能汇刊》在 2006 到 2016 年间,引用数最多的 10 位华人作者和 10 位非华人作者的具体情况,也是一个很有趣的表格:
   

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧-7-营销策划-中国人,美国总统,人工智能,奥巴马,数据库

  《IEEE 模式分析与机器智能汇刊》的华人前 10 位大牛,与非华人前 10 位大牛,在每个人的总引用数上几乎不相上下。的确,最顶尖的人工智能科学家里,中国人 / 华人的贡献丝毫不亚于其他科学家。
  另外,如果对人工智能特别是模式识别的研究领域不熟悉,那么,记住表中这 20 位顶尖科学家的名字吧。有兴趣的话,大家可以去搜一搜他们的简历,看看他们都在哪里工作,在哪里做研究,他们的学生、同事都是谁,相信会有很多发现。
  原因?

  为什么中国人 / 华人在人工智能领域这么强?因为数学好?因为兴趣使然?因为思维习惯?因为勤奋?因为教育?大家可能都有自己的答案。
  本文不想展开讨论,列举数据和事实,才是本文的目的。
  附录一:统计方法介绍

  简单介绍一下我是怎么得到上面那些比例和趋势数据的。
  周末,我先去 Web of Science 数据库里,找到 Computer Science / Artificial Intelligence 的主题类目,根据 2015 年 SCI 影响因子从高到低排序,取前 50 个出版物,这 50 个人工智能领域顶级期刊的详细列表见附录二。
  (因为筛选条件设置,主要是类目和影响因子的设置问题,顶级会议的会议录没有作为出版物列入这份列表。当然,顶级会议文章被顶级期刊收录的情况并不罕见。另外,每年文章数相对稳定的期刊用来做趋势统计要更容易一些,白宫报告的统计对象也是期刊文章。顶级会议文章通常需要另行统计,也许下次吧。)
  然后,对每份顶级期刊,基于文章的被引用数对 2006 到 2016 年的所有文章进行排序。这个时间段里,期刊的平均发表文章数在 500 左右,我以 500 为上界,取每份期刊中,被引用数最多的文章,至多 500 篇,每篇文章至少被引用一次。由此得到 2006 到 2016 年间的顶级人工智能相关论文共计 19855 篇。
  接下来,基于这些文章的作者列表和被引用数目,统计华人科学家、研究者与全部文章作者之间的比例和趋势关系。
  如何识别华人作者?好像没有特别好的方法。我的方法是根据英文姓名判断,如果英文姓名主要由汉语拼音、韦氏拼音或粤语拼音组成(当然还要考虑姓氏、名字二者在英文表述上的区别,以及其他一些经验规则),那么就假定这个作者是华裔。根据小样本集验证,这个判别方法的检准率大约在 96%以上,检全率大约在 90% 左右。也就是说,会有一定数量的遗漏,也会有少量误识,但基本可以反映整体情况与趋势。
  如何解决合作者问题?我是分别统计,并且不加权重的。第一作者和其他作者共享文章计数和引用计数。为第一作者增加权重是否影响整体统计结果?也许,但不会影响总体趋势数据,因为并没有证据表明,华人更多地出任第一作者,还是非华人更多地出任第一作者。至于每个作者的文章数和引用计数,是采用简单累加,还是采用比例累加(如两人合作,每人的贡献算 0.5 还是 1),我做了全数据集的对比试验,几乎完全不影响整体结果。
  附录二:按 SCI 影响因子排序的前 50 人工智能期刊列表

  出版物名称,影响因子
  
       
  • IEEE TRANSACTIONS ON FUZZY SYSTEMS, 6.701   
  • International Journal of Neural Systems, 6.085   
  • IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 6.077   
  • IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION, 5.908   
  • INTEGRATED COMPUTER-AIDED ENGINEERING, 4.981   
  • IEEE Transactions on Cybernetics, 4.943   
  • IEEE Transactions on Neural Networks and Learning Systems, 4.854   
  • MEDICAL IMAGE ANALYSIS, 4.565   
  • Information Fusion, 4.353   
  • INTERNATIONAL JOURNAL OF COMPUTER VISION, 4.27   
  • IEEE TRANSACTIONS ON IMAGE PROCESSING, 3.735   
  • IEEE Computational Intelligence Magazine, 3.647   
  • EVOLUTIONARY COMPUTATION, 3.6   
  • IEEE INTELLIGENT SYSTEMS, 3.532   
  • PATTERN RECOGNITION, 3.399   
  • ARTIFICIAL INTELLIGENCE, 3.333   
  • KNOWLEDGE-BASED SYSTEMS, 3.325   
  • NEURAL NETWORKS, 3.216   
  • EXPERT SYSTEMS WITH APPLICATIONS, 2.981   
  • Swarm and Evolutionary Computation, 2.963   
  • APPLIED SOFT COMPUTING, 2.857   
  • DATA MINING AND KNOWLEDGE DISCOVERY, 2.714   
  • INTERNATIONAL JOURNAL OF APPROXIMATE REASONING, 2.696   
  • SIAM Journal on Imaging Sciences, 2.687   
  • DECISION SUPPORT SYSTEMS, 2.604   
  • Swarm Intelligence, 2.577   
  • Fuzzy Optimization and Decision Making, 2.569   
  • IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2.476   
  • JOURNAL OF MACHINE LEARNING RESEARCH, 2.45   
  • ACM Transactions on Intelligent Systems and Technology, 2.414   
  • NEUROCOMPUTING, 2.392   
  • ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, 2.368   
  • CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS, 2.217   
  • ARTIFICIAL INTELLIGENCE IN MEDICINE, 2.142   
  • COMPUTER VISION AND IMAGE UNDERSTANDING, 2.134   
  • JOURNAL OF AUTOMATED REASONING, 2.113   
  • INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS, 2.05   
  • COMPUTATIONAL LINGUISTICS, 2.017   
  • ADVANCED ENGINEERING INFORMATICS, 2   
  • JOURNAL OF INTELLIGENT MANUFACTURING, 1.995   
  • Cognitive Computation, 1.933   
  • IEEE Transactions on Affective Computing, 1.873   
  • JOURNAL OF CHEMOMETRICS, 1.873   
  • MECHATRONICS, 1.871   
  • IEEE Transactions on Human-Machine Systems, 1.8   
  • Semantic Web, 1.786   
  • IMAGE AND VISION COMPUTING, 1.766   
  • Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery, 1.759   
  • NEURAL PROCESSING LETTERS, 1.747   
  • ARTIFICIAL INTELLIGENCE REVIEW, 1.731  



上一篇:10年前和今天的营销相比,有什么区别?
下一篇:A New Book to Make Content Marketing Easier
飞天是 投递于 2016-10-19 10:20:01
路过的帮顶
回复 支持 反对

使用道具 举报

南歌子 投递于 2016-10-19 10:33:14
我了个去,顶了
回复 支持 反对

使用道具 举报

梅子依旧 投递于 2016-10-19 10:33:15
不错 支持下
回复 支持 反对

使用道具 举报

梅子依旧 投递于 2016-10-19 10:33:17
我真的不愿意用脚趾头鄙视你。但是,是你逼我这么做的!
回复 支持 反对

使用道具 举报

黑框小弟 投递于 2016-10-19 10:33:22
找不到恐龙,就用蜥蜴顶  
回复 支持 反对

使用道具 举报

fucking 投递于 2016-10-19 10:36:10
最熟悉的陌生人是天才,坚定完毕
回复 支持 反对

使用道具 举报

搜狗是否 投递于 2016-10-20 02:35:59
你会变成大海,然后被鲨鱼吃掉!
回复 支持 反对

使用道具 举报

秋天不回来 投递于 2016-10-21 02:03:01
路过!!!据说外面下人民币了!!!
回复 支持 反对

使用道具 举报

痴灵 投递于 2016-11-14 17:10:36
呵呵。。。顶顶
回复 支持 反对

使用道具 举报

我要投稿

推荐阅读


回页顶回复上一篇下一篇回列表
手机版/CoLaBug.com ( 粤ICP备05003221号 | 文网文[2010]257号 | 粤公网安备 44010402000842号 )

© 2001-2017 Comsenz Inc.

返回顶部 返回列表