Porn Data Anaylize — 分类数据二次分析

微信扫一扫,分享到朋友圈

Porn Data Anaylize — 分类数据二次分析

我真的是以欣赏的角度看的,挺好看。很有态度,感觉真的像一个传媒公司,镜头,画面,转场,特写都很专业。艺人也是很敬业,很佩服他们. ..

U1S1演员确实没研究,怎么说也是小电影还是需要演技的。但这些演员都是真刀真枪的干。要是能真的请到传媒学院的或者那些圈里的明星估计会更好。– 糊胡涂

我没有要传播色情的意思,只是对于爬取的数据进行分析的时候,总会有些出乎意料的发现。在国内所有的情色内容都是不合法的,但是违法的事情确并没有因此而销声匿迹。通过最近的分析,我发现色情产业这个规模异常的庞大。原来想写一篇简单的分析文章,现在却发现自己分析的不过是冰山一角。现在的色情行业已经不再仅仅局限于提供色情视频的观看,点播下载。现在基于各种直播平台的在线直播,打赏,网红主播,TS CD,甚至有专门的编剧,导演拍摄,并且喊着口号甚至要超越日本,成为世界第一。

大家好,我是麻豆傳媒P先生。 謝謝大家一直對麻豆的支持,我們想打造屬於華人的中文市場,不讓日本一直走在我們前面,我們持續努力前行,打造華人的驕傲! 最近有許多人不斷的盜取麻豆的原創影片,我想這可能是大家還不習慣屬於華人國產影片的出現。感謝所有的同行跟我們一起努力,為每個人的夜晚去打造歡愉,但是盜取麻豆的影片只會讓歡愉更快的消失,讓華人國產停滯不前。 –麻豆传媒

而实际上,我在他们的官网也找到了不少的签约模特,暂且成为模特吧。关注到这个网站,或者这个群体是基于对爬取的数据分类的播放量分析得来的,虽然整体的播放量不是很大(受限于视频数量),但是影片的平均播放次数却是最高的!另外,请读者遵守中国法律,不要传播色情淫秽信息。本人也不会传播相关的内容,所有的数据仅用于分析当前行业的一些状态。

'''
分类播放信息
http://www.h4ck.org.cn
by obaby
obaby@mars
email:root@obaby.org.cn
date: 2020.09.15
'''
from pyspark.sql.functions import col
import altair as alt
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline
csv = spark.read.option("header",True).csv("hdfs://localhost:9000/data3/porn_data_movie.csv")
csv.printSchema()
root
|-- id: string (nullable = true)
|-- create: string (nullable = true)
|-- update: string (nullable = true)
|-- name: string (nullable = true)
|-- describe: string (nullable = true)
|-- image: string (nullable = true)
|-- thumb: string (nullable = true)
|-- thumb_raw: string (nullable = true)
|-- preview: string (nullable = true)
|-- video_link1: string (nullable = true)
|-- video_link2: string (nullable = true)
|-- video_link3: string (nullable = true)
|-- video_link4: string (nullable = true)
|-- mp4: string (nullable = true)
|-- m3u8: string (nullable = true)
|-- source_id: string (nullable = true)
|-- publish_time: string (nullable = true)
|-- play_count: string (nullable = true)
|-- good_count: string (nullable = true)
|-- bad_count: string (nullable = true)
|-- link_count: string (nullable = true)
|-- comment_count: string (nullable = true)
|-- thunder_url: string (nullable = true)
|-- designation: string (nullable = true)
|-- category_id: string (nullable = true)
|-- porn_site_id: string (nullable = true)
|-- uploader_id: string (nullable = true)
|-- producer: string (nullable = true)
csv.select('name', 'describe', 'category_id').show()
# 分类信息读取
category_csv = spark.read.option("header",True).csv("hdfs://localhost:9000/data3/porn_data_category.csv")
category_csv.printSchema()
root
|-- id: string (nullable = true)
|-- create: string (nullable = true)
|-- update: string (nullable = true)
|-- name: string (nullable = true)
|-- key: string (nullable = true)
|-- describe: string (nullable = true)
|-- image: string (nullable = true)
movie_csv = csv.withColumnRenamed('name','movie_name')
movie_csv.select('movie_name', 'category_id', 'id').show()
+------------------------+-----------+---+
|              movie_name|category_id| id|
+------------------------+-----------+---+
|    美女学生考试时被中出|          1|  1|
|      无套中出内射(上)|          1|  2|
|      无套中出内射(下)|          1|  3|
|                极品嫩妹|          1|  4|
|                骚妹妹 7|          1|  5|
|漂亮美女完美身材甜美声音|          1|  6|
|          jk捆绑萝莉束缚|          1|  7|
|            最纯萝莉性爱|          1|  8|
|          整容脸制服美女|          1|  9|
|             星 调教萝莉|          1| 10|
|        大一学生寝室自慰|          1| 11|
|    超性感美女给你打飞机|          1| 12|
|      超可爱萝莉下海资源|          1| 13|
|      迷倒女儿然后慢慢操|          1| 14|
|   精灵做爱高潮–影视剪辑|          1| 15|
|        小萝莉被插到大叫|          1| 16|
|    睡醒和白嫩女友来一发|          1| 17|
|  双马尾萝莉甜美自慰诱惑|          1| 18|
|        调教双马尾小萝莉|          1| 19|
|    黑丝小萝莉最喜欢玩具|          1| 20|
+------------------------+-----------+---+
only showing top 20 rows
movie_cat_rdd = movie_csv.select('movie_name','play_count','category_id').join(category_csv, movie_csv.category_id == category_csv.id, "inner")
movie_cat_rdd.select('movie_name', 'name', 'play_count').show()
+------------------------+------+----------+
|              movie_name|  name|play_count|
+------------------------+------+----------+
|    美女学生考试时被中出|萝莉系|      2566|
|      无套中出内射(上)|萝莉系|     11199|
|      无套中出内射(下)|萝莉系|      7067|
|                极品嫩妹|萝莉系|      3372|
|                骚妹妹 7|萝莉系|      1975|
|漂亮美女完美身材甜美声音|萝莉系|     17097|
|          jk捆绑萝莉束缚|萝莉系|      8362|
|            最纯萝莉性爱|萝莉系|     10329|
|          整容脸制服美女|萝莉系|      5297|
|             星 调教萝莉|萝莉系|      4725|
|        大一学生寝室自慰|萝莉系|     20318|
|    超性感美女给你打飞机|萝莉系|     17302|
|      超可爱萝莉下海资源|萝莉系|     18133|
|      迷倒女儿然后慢慢操|萝莉系|     59674|
|   精灵做爱高潮–影视剪辑|萝莉系|      8767|
|        小萝莉被插到大叫|萝莉系|     14213|
|    睡醒和白嫩女友来一发|萝莉系|      5350|
|  双马尾萝莉甜美自慰诱惑|萝莉系|     25311|
|        调教双马尾小萝莉|萝莉系|     29114|
|    黑丝小萝莉最喜欢玩具|萝莉系|     17084|
+------------------------+------+----------+
only showing top 20 rows
cat_play_count_rdd = movie_cat_rdd.select('name','play_count').rdd.reduceByKey(lambda x,y:int(x)+int(y))
cat_play_count_rdd.take(10)
[('麻豆', 9647109),
('热门推荐', 140009898),
('不雅视频', 0),
('亚洲无码', 0),
('人气女优', 0),
('有码', 13473918),
('精品推荐', 0),
('国产专区', 0),
('中文字幕', 12101524),
('三级片', 10920151)]
cat_play_count_df = cat_play_count_rdd.toDF().toPandas()
cat_play_count_df.head()
_1  _2
0   麻豆  9647109.0
1   热门推荐    140009898.0
2   不雅视频    0.0
3   亚洲无码    0.0
4   人气女优    0.0
# 视频标签数量展示
bars=alt.Chart(cat_play_count_df).mark_bar().encode(
x=alt.X('_2',),
y=alt.Y('_1',, sort='-x')
)
text = bars.mark_text(align='left', baseline='middle', dx=3).encode(text='_2')
(bars + text).properties(height=2000, width=800)

from pyspark.sql.functions import mean, stddev, skewness, kurtosis
movie_cat_rdd= movie_cat_rdd.withColumn("play_count",col("play_count").cast("Integer"))
avg_rdd = cat_play_count_rdd = movie_cat_rdd.select('name','play_count').rdd.groupByKey() \
.mapValues(lambda x: sum(x) / len(x))
avg_df = avg_rdd.toDF().toPandas()
avg_df.head()
_1  _2
0   麻豆  267975.250000
1   热门推荐    176780.174242
2   不雅视频    0.000000
3   亚洲无码    0.000000
4   人气女优    0.000000
# 视频标签数量展示
bars=alt.Chart(avg_df).mark_bar().encode(
x=alt.X('_2',),
y=alt.Y('_1',, sort='-x')
)
text = bars.mark_text(align='left', baseline='middle', dx=3).encode(text='_2')
(bars + text).properties(height=2000, width=800)

参考链接:

https://www.douban.com/group/topic/177255686/

https://www.douban.com/group/topic/185033610/

原创文章,转载请注明:转载自obaby@mars

本文标题: 《Porn Data Anaylize — 分类数据二次分析》

本文链接地址: http://h4ck.org.cn/2020/09/porn-data-anaylize-%e5%88%86%e7%b1%bb%e6%95%b0%e6%8d%ae%e4%ba%8c%e6%ac%a1%e5%88%86%e6%9e%90/

微信扫一扫,分享到朋友圈

Porn Data Anaylize — 分类数据二次分析

不只是芯片代工 台积电三星还将在封装领域展开激烈竞争

上一篇

Zoom你学不会

下一篇

你也可能喜欢

Porn Data Anaylize — 分类数据二次分析

长按储存图像,分享给朋友