Статьи по теме data

Публикации по теме 'data'

Работа с предварительным обучением в машинном обучении, часть 5

Расширение знаний: переосмысление медицинского контрастного видения-языка перед обучением (arXiv) Автор: Сяофэй Чен , Ютин Хэ , Чэн Сюэ , Жунцзюнь Гэ , Шо Ли , Гуаньюй Ян . Аннотация: Базовые модели, основанные на технологии предварительного обучения, значительно продвинули искусственный интеллект от теоретических до практических приложений. Эти модели облегчили широкое применение компьютерной диагностики. Медицинское контрастивное предварительное обучение языку видения, которое..

Эволюция зеркального спуска, часть 2 (оптимизация машинного обучения)

Зеркальный спуск максимизирует общую маржу и может быть реализован эффективно (arXiv) Автор: Хаоюань Сун , Кванджун Ан , Христос Трампулидис , Навид Азизан Аннотация . Благодаря эмпирическому успеху и широкому использованию глубоких нейронных сетей понимание эффективности обобщения чрезмерно параметризованных моделей становится все более популярным вопросом. С этой целью были предприняты значительные усилия, чтобы охарактеризовать неявное смещение используемых алгоритмов..

Каким специалистом по данным вы хотите быть ? Универсал или специалист ?

Самая большая дилемма для нас, специалистов по данным, — быть универсалом или специалистом. Это вопрос на миллион долларов, на который вы должны ответить, прежде чем слишком глубоко погрузиться в свою карьеру в науке о данных. Иначе можно очень быстро сгореть. Я начну с моей истории, я был Data Engineer, прежде чем стать Data Scientist. Таким образом, просто получив роль Data Scientist, я стал универсалом. Проработав пару лет в Classical ML и изучив предметную область, я понял, что..

𝗕𝗜𝗡𝗡𝗜𝗡𝗚 𝗶𝗻 𝗠𝗔𝗖𝗛𝗜𝗡𝗘 𝗟𝗘𝗔𝗥𝗡𝗜𝗡𝗚

В машинном обучении биннинг (также известный как дискретизация) — это процесс разделения непрерывного объекта на дискретные интервалы или бины. Это может быть полезно по ряду причин, таких как: 𝗥𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗵𝗲 𝗻𝘂𝗺𝗯𝗲𝗿 𝗼𝗳 𝘂𝗻𝗶𝗾𝘂𝗲 𝘃𝗮𝗹𝘂 𝗲𝘀 𝗶𝗻 𝗮 𝗳𝗲𝗮𝘁𝘂𝗿𝗲: это может упростить визуализацию данных, а также снизить вычислительную сложность некоторых алгоритмов. 𝗛𝗮𝗻𝗱𝗹𝗶𝗻𝗴 𝗼𝘂𝘁𝗹𝗶𝗲𝗿𝘀: бинирование можно использовать для группировки выбросов с другими похожими значениями, чтобы уменьшить их влияние на..

Что нового в данных: re:invent Andy Jassy Keynote

В этом году другой опыт. Чат с моими товарищами по команде представляет собой смесь обсуждения новых функций и фотографий хорошего времяпрепровождения в Вегасе с предыдущих конференций re:Invent. Энди Ясси закончил первое выступление 2020 года, и я не был разочарован. Множество замечательных новых функций, для которых у нас есть варианты использования. Вот мои любимые функции, связанные с данными, о которых было объявлено во время выступления Энди Джасси re:Invent. Склеивание..

Как кластеризовать данные!

Руководство по использованию неконтролируемого машинного обучения с кластеризацией K-средних При работе над проектами по науке о данных ученые часто сталкиваются с наборами данных, которые имеют немаркированные точки данных. Это затрудняет получение проницательных знаний, которые можно использовать для моделирования поведения данных. Чтобы разобраться в бессмысленных данных, используются неконтролируемые методы машинного обучения для маркировки точек данных, а также для обеспечения..

Градиентный спуск, четко объясненный в Python, часть 2: привлекательный код.

Примечание : это продолжение моей предыдущей статьи, посвященной теоретической стороне градиентного спуска. Если вы хотите в этом убедиться, перейдите по этой ссылке . Если вы не очень разбираетесь в теории, вы можете сразу перейти к ней! Градиентный спуск имеет фундаментальное значение для науки о данных, будь то глубокое обучение или машинное обучение. Глубокое понимание принципов градиентного спуска, безусловно, поможет вам в вашей будущей работе. Вместо того, чтобы играться..