Телеграмм чат группы devsp страница 30

e426702edf874b181aced1e2fa5c6cde.gif.mp4

(10.19 Кб)

@notboring_tech — лёгкий для чтения, приятный для досуга и просто уютный канал про технологии, ИИ и нейросети, VR и AR! Большое количество новостей и проектов из отрасли, к тому же канал без хлама и мусора, подписывайтесь! 🤖 💖

139712:13пожаловаться #1

Компания Apple купила канадский стартап-разработчика искусственного интеллекта и систем машинного обучения Inductiv для развития голосового помощника Siri.

Сумма сделки и ее условия не раскрываются. В Apple изданию заявили, что «периодически покупают небольшие компании».
Inductiv занимается созданием системы, с помощью которой искусственный интеллект используется для выявления и исправления ошибок в данных для машинного обучения. Инженерная команда Inductiv займется в Apple улучшением технологии Siri.
За последние пять лет Apple приобрела несколько компаний, связанных с искусственным интеллектом и машинным обучением, например, Voysis, Xnor.ai, Turi, Perceptio, Tuplejump и другие.

146717:04пожаловаться #2

2020 May 29

сopy

Это важная команда. Если вы сделаете:

import pandas as pd
df1 = pd.DataFrame({ ‘a’:[0,0,0], ‘b’: [1,1,1]})
df2 = df1
df2[‘a’] = df2[‘a’] + 1
df1.head()
Вы обнаружите, что df1 изменен. Это потому, что df2 = df1 не делает копию df1 и присваивает ее df2, а устанавливает указатель, указывающий на df1. Таким образом, любые изменения в df2 приведут к изменениям в df1. Чтобы это исправить, вы можете сделать либо:

df2 = df1.copy ()
или же:

from copy import deepcopy
df2 = deepcopy(df1)

147310:02пожаловаться #3

video_1527123_2570970.gif.mp4

(151.58 Кб)

Переобучение
Чем больше времени вы тратите на набор данных, тем вероятнее переобучение. Вы работали с функциями, оптимизировали параметры, использовали перекрёстную проверку, поэтому всё должно быть хорошо.
Решение: закончив построение модели, попробуйте найти другую версию наборов данных. Она может быть суррогатом для настоящего набора вне выборки. Если вы менеджер, сознательно скрывайте данные, чтобы они не использовались для обучения.
Пример: применение моделей, обученных на первом наборе данных ко второму набору, показывает: СКО более чем удвоилось. Это приемлемо? Решение за вами, но результаты #4 могут помочь.
первый наборrf mse 0.261 ols mse 0.187новый наборrf mse 0.681 ols mse 0.495

148619:00пожаловаться #4

2020 May 30

Обратите внимание: @kaicode (5 сентября). Это первый в своём роде сбор на одной площадке авторов open source проектов, в Москве. Huawei спонсирует и организует. Отошлите им ссылку на свой GitHub проект, его рассмотрят и лучших пригласят на площадку для выступления и защиты. Три проекта получают в руки по $5000 каждый и возможность дальнейшей поддержки от Huawei. Пишите им в Телеграм группу за подробностями и бесплатным билетом на вход.

145211:01пожаловаться #5

video_1576447_2656230.gif.mp4

(68.74 Кб)

Сможет ли Julia занять место рядом с Python
Julia и Python —языки программирования, которыми многие программисты очень дорожат. Использование Julia вместо Python обладает множеством преимуществ, таких как меньшее время написания кода и более быстрая компиляция. Однако на данный момент Julia проигрывает Python в популярности. В отличие от Python в Julia отсутствует критическая инфраструктура машинного обучения и выполнения скриптов, необходимых для того, чтобы стать отраслевым стандартом, особенно в машинном обучении...

157419:00пожаловаться #6

2020 May 31

video_1527123_2570970.gif.mp4

(151.58 Кб)

Нужно больше данных?
Интуитивно это покажется странным, но зачастую лучший способ начать анализ — работать с репрезентативной выборкой. Это позволяет ознакомиться с данными и построить конвейер, не дожидаясь их обработки и обучения модели. Но аналитикам, похоже, это не нравится: лучше больше данных.
Решение: начните работу с небольшой репрезентативной выборкой и посмотрите, сможете ли вы получить из нее что-то полезное. Верните выборку конечным пользователям. Они могут её использовать? Это решает реальную проблему? Если нет, то проблема скорее всего не в количестве данных, а в подходе.

155010:00пожаловаться #7

map
Это классная команда для простого преобразования данных. Сначала вы определяете словарь, в котором «ключами» являются старые значения, а «значениями» являются новые значения.

level_map = {1: ‘high’, 2: ‘medium’, 3: ‘low’}
df[‘c_level’] = df[‘c’].map(level_map)
Например: True, False до 1, 0 (для моделирования); определение уровней; определяемые пользователем лексические кодировки.

167219:00пожаловаться #8

2020 June 01

video_1581355_2664566.gif

(18.31 Мб)

IТ-индустрия - это рынок работников, а не работодателей.
Это означает, что сотрудники могут диктовать условия.
К тому же сегодня вам не нужно заканчивать IT-ВУЗ для написания кода. И если для того, чтобы стать программистом, достаточно нескольких месяцев, что помимо программирования имеет значение при приеме на работу?

196910:01пожаловаться #9

apply or not apply?
Если нужно создать новый столбец с несколькими другими столбцами в качестве входных данных, функция apply была бы весьма полезна.

172119:00пожаловаться #10

2020 June 02

video_1585362_2671676.gif

(13.13 Мб)

Компания Microsoft уволила 70 сотрудников и заменила их на ИИ. Алгоритм будет писать, отбирать и курировать новости.
Издания The Seattle Times и The Guardian сообщили, что компания Microsoft сократила около семидесяти журналистов и заменила их на ИИ. Они работали в новостном агрегаторе MSN и отвечали за выбор, редактирование и кураторство сюжетов. Сотрудники, которые работают в Microsoft полный день, останутся в компании.

218910:01пожаловаться #11

value counts
Это команда для проверки распределения значений. Например, если вы хотите проверить возможные значения и частоту для каждого отдельного значения в столбце «c», вы можете применить

df[‘c’].value_counts()
Есть несколько полезных приемов / функций:
A. normalize = True : если вы хотите проверить частоту вместо подсчетов.
B. dropna = False : если вы хотите включить пропущенные значения в статистику.
C. sort = False : показать статистику, отсортированную по значениям, а не по количеству.
D. df[‘c].value_counts().reset_index().: если вы хотите преобразовать таблицу статистики в датафрейм Pandas и управлять ими.

163719:01пожаловаться #12

2020 June 03

video_1591415_2681713.gif.mp4

(53.5 Кб)

Что такое Scikit Learn - гайд по популярной библиотеке Python для начинающих
Scikit-learn основан на NumPy и SciPy, поэтому необходимо понять хотя бы азы этих двух библиотек, чтобы эффективно применять Scikit-learn.
Scikit-learn - это пакет с открытым исходным кодом. Как и большинство материалов из экосистемы Python, он бесплатный даже для коммерческого использования. Он лицензирован под лицензией BSD.

165910:00пожаловаться #13

Количество пропущенных значений

При построении моделей может потребоваться исключить строку со слишком большим количеством пропущенных значений / строки со всеми пропущенными значениями. Вы можете использовать .isnull () и .sum () для подсчета количества пропущенных значений в указанных столбцах.

import pandas as pd
import numpy as np

df = pd.DataFrame({ ‘id’: [1,2,3], ‘c1’:[0,0,np.nan], ‘c2’: [np.nan,1,1]})
df = df[[‘id’, ‘c1’, ‘c2’]]
df[‘num_nulls’] = df[[‘c1’, ‘c2’]].isnull().sum(axis=1)
df.head()

163819:00пожаловаться #14

2020 June 04

video_1593823_2685554.gif

(18.4 Мб)

6 лучших библиотек машинного обучения

Развитие искусственного интеллекта привело к активной разработке различных фреймворков и библиотек, которые помогут вам внедрить технологию.
Давайте взглянем на некоторые из этих новейших библиотек и сред разработки с открытым исходным кодом ИИ и машинного обучения.

228210:00пожаловаться #15

video_1597803_2692054.gif.mp4

(102.09 Кб)

Оконные функции PostgreSQL
Многие разработчики, давно использующие postgresql, не понимают оконные функции, считая их какой-то особой магией для избранных. Ну или в лучшем случае «копипастят» со StackOverflow выражения типа «row_number() OVER ()», не вдаваясь в детали. А ведь оконные функции — полезнейший функционал PostgreSQL.
Сначала вы должны понять, что оконные функции не изменяют выборку, а только добавляют некоторую дополнительную информацию о ней. Т.е. для простоты понимания можно считать, что postgres сначала выполняет весь запрос (кроме сортировки и limit), а потом только просчитывает оконные выражения.

165319:00пожаловаться #16

2020 June 05

Выбрать строки с конкретными идентификаторами.

В SQL мы можем сделать это, используя SELECT * FROM… WHERE ID в («A001», «C022»,…), чтобы получить записи с конкретными идентификаторами. Если вы хотите сделать то же самое с pandas, вы можете использовать:

df_filter = df ['ID']. isin (['A001', 'C022', ...])
df [df_filter]

162010:00пожаловаться #17

video_1602554_2700027.gif

(15.72 Мб)

Появилась первая европейская платформа для облачных вычислений. Власти стран ЕС заявили, что они не хотят зависеть от платформ, которые работают в США и Китая.
Власти Германии и Франции заявили о создании первой европейской платформы для облачных вычислений Gaia-X. Ее создатели отмечают, что они хотят создать конкурента для таких же сервисов из других стран –– США и Китая. Впервые о том, что платформа появится, они говорили еще в 2019 году. Однако теперь власти представили коммерческих партнеров –– это 22 немецкие и французские компании...

192819:00пожаловаться #18

2020 June 06

video_1603136_2701090.gif.mp4

(389.5 Кб)

HackerEarth: Go снова назван самым востребованным языком среди программистов

Больше всего студенты и профессиональные разработчики хотели бы выучить Go. К такому выводу пришли аналитики HackerEarth — разработчика корпоративных продуктов, которые помогают рекрутерам дистанционно оценивать навыки программирования соискателей, — по результатам опроса 16,655 респондентов из 76 стран...

151310:00пожаловаться #19

Percentile groups

Допустим, у вас есть столбец с числовыми значениями, и вы хотите классифицировать значения в этом столбце по группам, скажем, топ 5% в группу 1, 5–20% в группу 2, 20–50% в группу 3, нижние 50% в группу 4. Конечно, вы можете сделать это с помощью pandas.cut, но мы бы хотели представить другую функцию:

import numpy as np
cut_points = [np.percentile(df[‘c’], i) for i in [50, 80, 95]]
df[‘group’] = 1
for i in range(3):
df[‘group’] = df[‘group’] + (df[‘c’] < cut_points[i])
# or <= cut_points[i]
Которая быстро запускается (не применяется функция apply).