PerspectiveAPI

Ref Comp Author
Reflexing Complexity
3 min readJul 3, 2018

Гугл запустил новую платформу для оценки “токсичности” комментариев. Потрогать можно на https://www.perspectiveapi.com/ , в середине страницы нажать на “Writing Experiment”. Честно говоря, напоминает работу студента, который только что узнал про char-rnn и word2vec, и “в лоб” напустил простой классификатор на размеченные данные. Получается что-то вроде той истории, когда микрософтовский бот Тау обучился антисемитизму — короче, какие данные заложил в модель, то у тебя и будет, включая все баесы в данных. И, конечно, непрямые высказывания вроде иронии полностью ломают систему. Так что если когда-нибудь за чистотой языка будет следить ИИ, то можно будет перейти на саркастические высказывания, и людям снова придется размечать корпус для обучения модели. Комментарии и оценка их токсичности (чем выше — тем большая вероятность, что комментарий плохой):

Jews — 77% (похоже, мы теперь не можем говорить об истории вообще)

Americans — 32%

Americans. — 25% (да, просто добавлена точка)

Russians — 51%

Russians are our “friends” since XX century — 20%

“Russians are our “friends” since XX century” — 14% (просто добавил внешние кавычки)

Climate change is a lie — 68% (базовая оценка)

Climate change is a lie because science — 43% (“science” сильно снижает токсичность)

Climate change is a lie because I said so — 51% (видимо, я не эксперт)

Climate change is a lie because reasons — 56%

Gays are oppressed — 86%

Gays are not oppressed — 77% (модель не схватывает отрицания)

It is ok to be gay — 52%

It is not ok to be gay — 52% (даже не знаю, что сказать)

We need to go back in time and kill Hitler — 90% (как-будто модель среагировала только на последнее слово)

Patriarchy — 25%

Matriarchy — 12%

Patriarchy is good — 13%

Patriarchy is bad — 66% (предлагаю запустить новость, что Гугл поддерживает патриархат. И, видимо, “bad” очень токсичное слово)

Немного страшновато, когда такие вещи будут (если еще не) использоваться не для оценки токсичности, а для оценки экстремизма, например. Или для оценки богохульства в странах с жесткими законами относительно религии. Я года четыре назад шутил, что нужно сделать статью “Automatic Heresy Detection Using Text Mining”, а теперь уже что-то не смешно. Если методология сбора данных будет такая же, то от личных баесов аудитории в интернете будет сильно зависеть жизнь людей в реальном мире. Слишком сильно.

Обновление от июль 2018:

Гугл обновил платформу, и теперь она работает немного по-другому, как минимум она дает меньший уровень токсичности отдельным словами, и смотрит на общее предложение. Однако по прежнему не может схватить сарказм, и любые эмоционально-заряженные слова, включая ругательства, наделяет высокий уровнем токсичности, что автоматически запрещает использование этих слов даже в исследовательском контексте. Чрезвычайно символично. Слова и фразы выше, но с новыми уровнями токсичности (вероятность перевел в проценты для более удобного сравнения):

Jews —было 77% — стало 41%

Americans — 32% — 12%

Americans. — 25% — 14%

Russians — 51% — 17%

Russians are our “friends” since XX century — 20% — 4%

“Russians are our “friends” since XX century” — 14% — 2%

Climate change is a lie — 68% — 30%

Climate change is a lie because science — 43% — 25%

Climate change is a lie because I said so — 51% — 19% (шах и мат, наука)

Climate change is a lie because reasons — 56% — 24%(шах и мат, наука 2)

Gays are oppressed — 86% — 68%

Gays are not oppressed — 77% — 61%

It is ok to be gay — 52% — 64%

It is not ok to be gay — 52% — 62%

We need to go back in time and kill Hitler — 90% — 87% (беру свои слова обратно про то, что модель лучше реагирует на отдельные слова)

Patriarchy — 25% — 1% (оглушительная победа традиционного общества над современным)

Matriarchy — 12% — 9%

Patriarchy is good — 13% — 4%

Patriarchy is bad — 66% — 42%

--

--